JP5635024B2 - 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム - Google Patents

音響信号強調装置、遠近判定装置、それらの方法、及びプログラム Download PDF

Info

Publication number
JP5635024B2
JP5635024B2 JP2012038299A JP2012038299A JP5635024B2 JP 5635024 B2 JP5635024 B2 JP 5635024B2 JP 2012038299 A JP2012038299 A JP 2012038299A JP 2012038299 A JP2012038299 A JP 2012038299A JP 5635024 B2 JP5635024 B2 JP 5635024B2
Authority
JP
Japan
Prior art keywords
signal
sound
direct
value
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012038299A
Other languages
English (en)
Other versions
JP2013175869A (ja
Inventor
裕輔 日岡
裕輔 日岡
古家 賢一
賢一 古家
羽田 陽一
陽一 羽田
健太 丹羽
健太 丹羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012038299A priority Critical patent/JP5635024B2/ja
Publication of JP2013175869A publication Critical patent/JP2013175869A/ja
Application granted granted Critical
Publication of JP5635024B2 publication Critical patent/JP5635024B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、例えば、音声通話や、音声入力によって機器を操作するハンズフリー方式等に応用でき、マイクロホンから特定の距離範囲内に位置する音源の音だけを強調して収音する際に用いられる音響信号強調装置、遠近判定装置、それらの方法、及びプログラムに関する。
特許文献1に示す従来技術では、直間比を求めるためにマイクロホンアレーの受音信号を周波数領域に変換し、その信号から求められる空間相関行列を用いて直接音と間接音のそれぞれのパワーを求めている(例えば、実施例1の段落[0025]〜[0039]参照)。
特開2011−55211号公報
特許文献1に開示された方法では、直接音とそれと同じ方向から到来する間接音との区別がつかないため、直接音の方向から到来する音はすべて直接音と判断されてしまう。結果として直接音パワーを過大評価(または間接音パワーを過小評価)してしまい、最終的に求められる直間比が真の値よりも大きくなってしまう。
本発明はこのような点に鑑みてなされたものであり、音響信号の直間比推定値を精度よく求める技術を提供することを目的とする。
本発明では以下のように音響信号の直間比推定値を得る。
マイクロホンアレーに含まれる複数個のマイクロホンで受音された受音信号を周波数領域に変換して得られる周波数領域信号を用い、当該周波数領域信号のパワー推定値を得る。また、上記周波数領域信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた直接音抑圧信号のパワー推定値、又は、上記受音信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた信号を周波数領域に変換して得られた直接音抑圧信号のパワー推定値を得る。直接音源方向から到来した信号成分を抑圧する指向特性を表す関数から得られた指向性形状補正係数を用い、上記直接音抑圧信号のパワー推定値を補正し、間接音のパワー推定値を得、上記周波数領域信号のパワー推定値及び間接音のパワー推定値を用い、間接音のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る。
本発明では、直接音源方向ら到来する間接音を直接音と区別して、間接音のパワーを推定する。従って従来手法に比べ音響信号の直間比推定値を精度よく求めることができる。
音響信号強調装置を利用する場面の一例を示す図。 屋内での音の伝搬経路を例示する図。 直間比推定値とマイクロホンから音源までの距離との関係を例示する図。 指向性の形状を例示する概念図。 指向性補正係数を説明するための概念図。 音響信号強調装置の機能構成を例示する図。 処理対象信号生成部の機能構成を例示する図。 周波数領域変換部及び直間比計算部を例示する図。 直間比計算部の機能構成を例示する図。 音響信号強調装置の動作フローを例示する図。 遠近判定装置の機能構成を例示する図。 座標系を説明するための図。
以下、図面を参照して本発明の実施形態を説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。また、以下の説明において、テキスト中で使用する記号「 ̄」や「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。
〔原理〕
実施例の説明の前に各実施例に対応する原理を説明する。
実施例1では、単一のマイクロホンアレーを用い、マイクロホンアレーから特定の距離範囲にある直接音源から発せられた音を強調して収音する。実施例2では、マイクロホンアレーに対する音源位置の遠近を判定する。
図1に、実施例1の音響信号強調装置が利用される場面を例示する。小型マイクロホンアレー11を、例えば4人の発話者12〜14が取り囲んで会議をしている場面を想定する。その会議室内には、テレビ16、電話17、館内放送用のスピーカ18が配置されている。このような場面において、館内放送の音声や、電話の音等を収音せずに、小型マイクロホンアレー11を中心として所定の距離範囲内(破線で示す円内)に位置する発話者12〜14(直接音源)の発話だけを収音したい。
実施例1では、マイクロホンアレーから音源までの距離を見分けるために、受音信号に含まれる直接音のパワー推定値と間接音(残響音等)のパワー推定値との比に着目する。以下、間接音のパワー推定値に対する直接音のパワー推定値の比率を表す値を「直間比推定値」と呼ぶ。例えば、直接音のパワー推定値を間接音のパワー推定値で除した値を直間比推定値としてもよいし、間接音のパワー推定値を直接音のパワー推定値で除した値を直間比推定値としてもよいし、それら何れかの関数値を直間比推定値としてもよい。パワー推定値とは、パワーの増加に応じて増加する値を意味する。パワー推定値の例は、パワー、パワースペクトル、パワースペクトル密度、振幅の単調増加関数値、それらの推定値などである。図2に屋内にマイクロホン22を置いて音を収録した際の、音源21からマイクロホン22までの音の伝搬経路を示す。直接音とは、音源21からマイクロホンまで直接到達する太い実線で示す音波である。間接音とは、音源21から発した音が壁や床や天井などで反射してからマイクロホン22に到達する破線で示す音波である。
図3に直間比推定値とマイクロホンから音源までの距離との関係を例示する。図3の横軸はマイクロホンから音源までの距離、縦軸は直間比推定値である。図3では直接音のパワー推定値を間接音のパワー推定値で除したものを直間比推定値としている。一般に、間接音はマイクロホンからの距離に依存しない一定の大きさを示す。一方、直接音の大きさは、その音源からマイクロホンまでの距離の増加に伴って単調に減少する。そのため直接音のパワー推定値を間接音のパワー推定値で除した直間比推定値は、直接音の大きさと同様に距離の増加に伴って単調に減少する。
実施例1の音響信号強調装置は、受音信号から直間比推定値を求め、受音信号に含まれる直接音の音源(直接音源)のマイクロホンアレーからの距離を推定する。これにより、音響信号強調装置は、マイクロホンアレー11を中心とした所定の距離範囲を推定できる。当該音響信号強調装置は、直間比推定値に応じて処理対象信号の振幅を調整することで、所望の距離範囲に存在する音源から発せられる音を強調し、それ以外の音(雑音)を相対的に抑制する。実施例2の遠近判定装置は、受音信号から直間比推定値を求め、マイクロホンアレーに対する直接音源位置の距離の遠近を判定する。
直間比推定値を精度よく求めることができる原理を説明する。
<間接音の等方到来モデル>
提案方式では、間接音の等方性を考慮した信号モデルを導入する。ここでは、パワー推定値としてパワースペクトル密度又はその推定値を用いた例を説明するが、これは本発明を限定しない。
M(M≧2)個のマイクロホンからなるマイクロホンアレーのm番目のマイクロホンでの受音信号を短時間フーリエ変換等によって周波数領域に変換すると、以下の周波数領域信号X(ω,t)が得られる。
X(ω,t)=(HD (m)(ω)+HR (m)(ω))S(ω,t) (1)
ただし、ωは周波数であり、H (m)(ω)は直接音源からm番目のマイクロホンまでの直接音の伝達関数であり、H (m)(ω)は直接音源からm番目のマイクロホンまでの間接音の伝達関数であり、S(ω,t)は直接音源での音を周波数領域に変換して得られる信号である。tは所定の時間区間であるフレームのインデックスであり、インデックスtに対応するフレームを「フレームt」と表現する。
ここで直接音はコヒーレント(coherent)である一方、間接音はその主な成分が残響であることから拡散音(diffuse)であると仮定する。すなわち、それぞれの到来方向に着目した場合、直接音は音源の方向からのみ到来するのに対し、間接音はあらゆる方向から一様なパワーで到来する性質(以下「等方性」という)を持つ。提案方式ではこれら空間的な到来特性の違いに着目して間接音パワーを推定して直間比推定値を求める。
前提条件として直接音の到来方向(以下「直接音源方向」という)は既知であり、直接音及び任意の方向から到来する間接音は平面波とみなせるとし、拡散音の定義より直接音と間接音は互いに無相関とする。このとき直接音源からm番目のマイクロホンまでの直接音,間接音の伝達関数H (m)(ω),H (m)(ω)は、それぞれ以下のように表現できる。
Figure 0005635024

ただし、HDref(ω)は直接音源からマイクロホンアレーの基準点(「基準点」という)までの伝達関数の直接音成分であり、HRref,θ(ω)は基準点からみて方向θから到来する間接音成分である。基準点はマイクロホンアレーの内部に存在してもよいし、マイクロホンアレーの外部に存在してもよい。マイクロホンアレーの内部とは、例えば、マイクロホンアレーを構成する複数のマイクロホンを通る直線上、当該複数のマイクロホンを通る線分で囲まれた平面の内部、又は当該複数のマイクロホンを通る面で囲まれた立体の内部を意味する。マイクロホンアレーの外部とは、マイクロホンアレーの内部以外の位置を意味する。例えば、マイクロホンアレーを構成する複数のマイクロホンそれぞれと基準点との距離は、マイクロホンそれぞれと直接音源との距離よりも短い。基準点の例は、マイクロホンアレーの中心点、何れか1個のマイクロホンの位置である。τθ (m)は、次式のように表される。
τθ (m)=-(1/c)uTpm
ここで第m番目のマイクロホンの位置pは、
pm=[pm,x, pm,y, pm,z]T
であり、図12A及び12Bに示すように直接音源方向を表す単位ベクトルuは、
u=[sinθ, cosθ, 0]T
であり、cは音波の伝搬速度である。方向θから到来する音の上記基準点からm番目のマイクロホンまでの間での伝搬遅延であり、θは基準点からみた直接音源方向であり、jは虚数単位であり、eは自然対数である。また、θについての積分は0≦θ<2πの範囲で行われる(以下の積分についても同様)。
すなわち直接音と間接音の伝達関数HD (m)(ω),H (m)(ω)のそれぞれは、直接音源から基準点までの伝達関数成分と、基準点からm番目のマイクロホンまでの伝搬遅延による位相差成分とに分解して表すことができる。従って、周波数領域信号X(ω,t)(m∈{1,...,M})を要素とするマイクロホンアレー入力ベクトルX(ω,t)=[X(ω,t),...,X(ω,t)]は次式で表される。
Figure 0005635024

ただし、αはαの転置を表し、S(ω,t)=HDref(ω)S(ω,t),SR,θ(ω,t)=HRref,θ(ω)S(ω,t)である。また、Aθ(ω)は、方向θからマイクロホンアレーに到来する周波数ωの音の基準点からm番目のマイクロホンまでの経路の伝達関数を要素とするM次元ベクトルである。Aθ(ω)の具体例は、マイクロホンアレーの基準点からみた方向θのアレイ・マニフォールド・ベクトル(array manifold vector)である。以下にアレイ・マニフォールド・ベクトルをAθ(ω)とした例を示す。
Figure 0005635024
アレイ・マニフォールド・ベクトルの各要素は伝搬遅延τθ (m)に依存する。直接音及び間接音が平面波とみなせる場合、伝搬遅延τθ (m)はマイクロホンアレーの基準点に対する各マイクロホンの相対位置及び方向θに依存する。なお、アレイ・マニフォールド・ベクトルの詳細については、例えば、参考文献1「浅野太著,“音のアレイ信号処理−音源の定位・追跡と分離(日本音響学会編 音響テクノロジーシリーズ)”,株式会社コロナ社,2011年2月25日,ISBN978−4−339−01116−6」の第1章(P1〜26)を参照されたい。
このマイクロホンアレー入力に任意のビームフォーマ(BF: beamformer)を適用すると、その出力のパワースペクトル密度(PSD: power spectral density)PBM(ω)は以下のようになる。
Figure 0005635024

ただし、P(ω)=E[|S(ω,t)|、PR,θ(ω)=E[|SR,θ(ω,t)|である。W(ω)は、周波数領域のビームフォーマのフィルタ係数W(ω),...,W(ω)を要素とするベクトルW(ω)=[W(ω),...,W(ω)]である(参考文献1の第4.1章(P70,71)等参照)。U(ω)は、pq成分(p,q∈{1,...,M})に要素Upq(ω)=E[X(ω,t)X (ω,t)]を持つM×M行列(マイクロホンアレーの入力信号空間相関行列)である。E[α(t)]はα(t)のtについての期待値演算を表し、αはαの複素共役転置を表し、αはαの複素共役を表す。D(ω,θ)はビームフォーマによって形成される指向特性を表す関数(ω,θを定義域とする関数)である。すなわち、D(ω,θ)はビームフォーマによって形成される指向性の形状を表す。例えば、D(ω,θ)は以下のように表される。
Figure 0005635024
<ビームフォーマを用いた直間比推定>
式(4)において間接音がマイクロホンアレーに等方的に到来すると仮定できる音場では、PR,θ(ω)はθに依らない値P (ω)に置き換えることができる。この場合、式(4)は以下のように変形できる。
Figure 0005635024
次に、直接音源方向θから到来した信号成分を抑圧するビームフォーマを想定する。言い換えると、直接音源方向θにヌル(指向性の感度の低い点)を向けた指向特性形状(例えば図4参照)が得られるビームフォーマを想定する。さらに言い換えると、直接音源方向θに空間的なノッチを持った指向特性を実現するビームフォーマを想定する。このようなビームフォーマは、直接音源方向θの情報から容易に設定できる。例えば、参考文献1の第4.6章(P90〜97)に記載された「ブロッキング行列」によって表されるフィルタをこのようなビームフォーマとして用いることができる。直接音源方向θから到来した信号成分を抑圧するビームフォーマは、理想的には直接音源方向θから到来した信号成分をゼロにする。すなわち理想的にはD(ω,θ)=0となる。このような理想的なビームフォーマの出力パワースペクトル密度をPND(ω)とすると、式(6)から以下が成り立つ。
Figure 0005635024
ここで、D(ω,θ)がすべてのθについて間接音成分を抑圧しない指向特性を表すといえるのであれば、PND(ω)は間接音のパワースペクトル密度P(ω)であるとみなせる。しかしながら、方向θから到来する音のみを抑圧し、方向θ≠θから到来する信号を全く抑圧しない指向特性を得ることは困難である。仮に方向θ≠θから到来する信号を全く抑圧しない指向特性を得ることができたとしても、ここで想定しているビームフォーマは直接音源方向θから到来した音(間接音成分も含む)を抑圧するものであるため、少なくともこの方向θから到来する間接音成分は抑圧される。したがって、D(ω,θ)がすべてのθについて間接音成分を抑制しない指向特性を表すとは言えない。
そこで提案方式では、D(ω,θ)を用いて指向性形状補正係数R(ω)を求め、指向性形状補正係数R(ω)を用いてPND(ω)を補正し、間接音のパワースペクトル密度P(ω)を推定する。
PR(ω)=R(ω)PND(ω) (9)
例えば、周波数ωごとの|D(ω,θ)|の最大値をmaxθ’|D(ω,θ’)|とし、以下のように指向性形状補正係数R(ω)が設定されてもよい(指向性形状補正係数の具体例1)。
Figure 0005635024

ただし、θ’は|D(ω,θ)|を最大化するθを意味する。図5に、式(10)の分子と分母を模式的に例示する。
或いは、特定の角度領域Θでの|D(ω,θ’’)|(θ’’∈Θ)の平均値を分子とし、以下のように指向性形状補正係数R(ω)が設定されてもよい(指向性形状補正係数の具体例2)。
Figure 0005635024

ただし、||Θ||は角度領域Θの大きさを表す0より大きな有理数である。例えば、||Θ||は以下を満たす。
Figure 0005635024

角度領域Θの具体例は、直接音源方向θを除く何れかの角度領域、直接音源方向θの逆方向を含む角度領域、|D(ω,θ)|を最大化する方向θを含む角度領域、予め定められた角度領域の候補のうち|D(ω,θ)|の平均値を最大化する角度領域などである。
その他、式(10)又は式(11)に補正定数が乗じられたものが指向性形状補正係数R(ω)とされてもよい(指向性形状補正係数の具体例3)。この場合、音響特性を考慮した周波数依存の補正定数が乗じられてもよいし、周波数不依存の補正定数が乗じられてもよい。或いは、式(8)の分子が周波数依存又は不依存の定数であってもよい(指向性形状補正係数の具体例4)。
提案方式では、指向性形状補正係数R(ω)を用いてビームフォーマの出力パワースペクトル密度PND(ω)を補正し、間接音のパワースペクトル密度の推定値P(ω)を求める。これにより、直接音源方向θから到来し、ビームフォーマによって抑圧された間接音成分を補正でき、間接音のパワースペクトル密度の推定値P(ω)を精度よく求めることができる。
間接音のパワースペクトル密度の推定値P(ω)が得られれば、さらに周波数領域信号X(ω,t),...,X(ω,t)から得られるパワースペクトル密度の推定値P(ω)を用い、直間比推定値DRRを得ることができる。例えば、以下の直間比推定値DRRを得ることができる(直間比推定値DRRの具体例1)。
Figure 0005635024
或いは、以下のようなデシベル表記の直間比推定値DRRであってもよい(直間比推定値DRRの具体例2)。
Figure 0005635024
或いは、以下のように周波数ωごとに直間比推定値DRR(ω)が得られてもよい(直間比推定値DRRの具体例3)。
Figure 0005635024
或いは、式(12)−(15)の何れかに定数が乗じられたものが直間比推定値とされてもよいし(直間比推定値DRRの具体例4)、式(12)−(15)の何れかの逆数が直間比推定値とされてもよいし(直間比推定値DRRの具体例5)、式(12)−(15)の何れかの逆数に定数が乗じられたものが直間比推定値とされてもよい(直間比推定値DRRの具体例6)。その他、式(12)−(15)の単調増加関数値が直間比推定値とされてもよい(直間比推定値DRRの具体例7)。
或いは、K個のフレームt=(L−1)+1,...,(L−1)+KからなるブロックLに対応する受音信号のみを対象としてPND(ω),P(ω),P(ω)を求め、ブロックLごとに直間比推定値DRR又はDRR(ω)(直間比推定値DRRの具体例1〜7)を求め、それをブロックLでの直間比推定値DRR又はDRR(ω)としてもよい。ただし、Kは1以上の整数定数であり、Lはブロックに対応する1以上の整数インデックスである。(直間比推定値DRRの具体例8)。この場合、K=1としたブロック、すなわちフレームごとに直間比推定値DRR又はDRR(ω)が得られてもよい。以下においてK=1のブロックはフレームと同義であるとする(直間比推定値DRRの具体例9)。その他、様々な直間比推定値が想定できる。以下では、このような直間比推定値を総称して「直間比推定値DRR」と表現する。
その他、互いに位置の異なる直接音源が複数存在し、直接音源方向θが複数存在する場合も上記と同様に考えることができる。
図6に、実施例1の音響信号強調装置400の音響信号強調装置の機能構成を例示し、図10に、音響信号強調装置400の動作フローを例示する。実施例1の音響信号強調装置400は、複数のマイクロホンm,…,mから成るマイクロホンアレー41と、複数の周波数領域変換部42〜42と、処理対象信号生成部43と、直間比計算部44と、対象信号調整部45と、逆周波数領域変換部46とを具備する。対象信号調整部45は、フィルタ係数算出部451と乗算部452とを具備する。マイクロホンアレー41を除く各機能構成部は、例えばROM(read-only memory)、RAM(random-access memory)、CPU(central processing unit)等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。また、複数のマイクロホンm,…,mは、互いに異なる位置に配置される。
複数のマイクロホンm,…,mで受音された受音信号x(n),…,x(n)は、複数の周波数領域変換部42,…,42にそれぞれ入力される。nは実時間を表す。周波数領域変換部42,…,42は、受音信号x(n),…,x(n)をディジタル信号に変換し、フレームごとに周波数領域信号X(ω,t),…,X(ω,t)に変換して出力する(ステップS42)。例えば周波数領域変換部42,…,42は、受音信号x(n),…,x(n)を、サンプリング周波数16kHzでサンプリングしてディジタル信号に変換し、例えば256個のサンプルを1フレームとして、それぞれのフレームにおいて離散フーリエ変換を行って周波数領域信号X(ω,t),…,X(ω,t)を生成して出力する(ステップS42)。なお、受音信号x(n)(m∈{1,…,M})はマイクロホンmで受音された音響信号を表し、周波数領域信号X(ω,t)は受音信号x(n)に対応する。受音信号x(n),…,x(n)をディジタル信号に変換するA/D変換器は図面から省略されている。
処理対象信号生成部43は、周波数領域信号X1(ω,t),…,XM(ω,t)を入力とし、処理対象信号Y(ω,t)を生成して出力する(ステップS43)。処理対象信号生成部43及びステップS43の詳細は後述する。
直間比計算部44は、周波数領域信号X1(ω,t),…,XM(ω,t)を入力として、周波数領域信号X1(ω,t),…,XM(ω,t)の直間比推定値DRRを生成して出力する(ステップS44)。直間比計算部44及びステップS44の詳細は後述する。
対象信号調整部45は、処理対象信号Y(ω,t)と直間比推定値DRRを入力とし、直間比推定値DRRに応じて処理対象信号Y(ω,t)の振幅を調整した処理後信号Z(ω,t)を生成して出力する。言い換えると、対象信号調整部45は、直間比推定値DRRに応じた大きさのゲイン(フィルタ係数)を処理対象信号Y(ω,t)に乗じ、それによって処理後信号Z(ω,t)を生成して出力する(ステップS45)。
直間比推定値DRRに応じてどのような大きさのゲインを定めるかは、マイクロホンアレー41からどのような距離範囲にある直接音源から発せられた音を強調するのかに依存する。例えば、マイクロホンアレー41に近い直接音源から発せられた音をより強調する場合には、直間比推定値DRRが表す間接音のパワー推定値に対する直接音のパワー推定値の比率が所定の閾値よりも大きい場合に処理対象信号に乗じられるゲインを、当該比率が上記所定の閾値よりも小さい場合に処理対象信号に乗じられるゲインよりも大きくする。例えば、マイクロホンアレー41により遠い直接音源から発せられた音をより強調する場合には、直間比推定値DRRが表す間接音のパワー推定値に対する直接音のパワー推定値の比率が所定の閾値よりも大きい場合に処理対象信号に乗じられるゲインG(ω,t)を、当該比率が上記所定の閾値よりも小さい場合に処理対象信号に乗じられるゲインよりも小さくする。
直間比推定値DRRに応じてどのような大きさのゲインを定めるかは、前述のように、直間比推定値DRRが表す間接音のパワー推定値に対する直接音のパワー推定値の比率と所定の閾値との大小比較により決定する方法に限らない。例えば、マイクロホンアレー41に近い直接音源から発せられた音をより強調する場合には、直間比推定値DRRが表す間接音のパワー推定値に対する直接音のパワー推定値の比率が第1値である場合に処理対象信号に乗じられるゲインを、当該比率が第1値よりも小さな第2値である場合に処理対象信号に乗じられるゲインよりも大きくする。例えば、マイクロホンアレー41に遠い直接音源から発せられた音をより強調する場合には、直間比推定値DRRが表す間接音のパワー推定値に対する直接音のパワー推定値の比率が第1値である場合に処理対象信号に乗じられるゲインG(ω,t)を、当該比率が第1値よりも小さな第2値である場合に処理対象信号に乗じられるゲインよりも小さくする。対象信号調整部45及びステップS45の詳細は後述する。
逆周波数領域変換部46は、入力された処理後信号Z(ω,t)を時間領域の信号z(n’)に変換して出力する(ステップS46)。n’は離散時間を表す。例えば、逆周波数領域変換部46は、逆フーリエ変換によって処理後信号Z(ω,t)を時間領域の信号z(n’)に変換して出力する。
ステップS41〜ステップS46までの動作は、例えば、マイクロホンm,…,mで受音されたすべての受音信号x(n),…,x(n)に対する処理が終了するまで繰り返される。以上の動作により、マイクロホンアレーによって、例えば、特定の距離範囲にある音を強調し、相対的にその範囲外の音を抑圧して収音することができる。以降、各部及びステップのより具体的な例を示す。
〔処理対象信号生成部43/ステップS43〕
処理対象信号Y(ω,t)の一例は、周波数領域信号X(ω,t),…,X(ω,t)の合成信号である。処理対象信号Y(ω,t)の他の例は、何れか1個のマイクロホンm’(m’∈{1,…,M})に対応する周波数領域信号Xm’(ω,t)や、Xm’(ω,t)の重み付け値である。
図7に処理対象信号生成部43の機能構成例を示す。図7に例示する処理対象信号生成部43は、複数の重み乗算部431〜431と、加算部432を備える。周波数領域信号X(ω,t),…,X(ω,t)は、重み乗算部431〜431にそれぞれ入力される。周波数領域信号X(ω,t),…,X(ω,t)は、重み係数w(ω),…,w(ω)を周波数領域信号X(ω,t),…,X(ω,t)にそれぞれ乗じ、重み付け周波数領域信号w(ω)X(ω,t),…,w(ω)X(ω,t)を生成して出力する。
例えば、無指向性のM個のマイクロホンm,…,mが用いられる場合、w(ω)=…=w(ω)=1/Mとし、M個の周波数領域信号X(ω,t),…,X(ω,t)の平均値を処理対象信号Y(ω,t)することで、処理対象信号Y(ω,t)を安定化させることができる。またw=1,w=0(m∈{2,…,M})とすることで、特定のマイクロホンmの受音信号だけを使用することができる。例えば、指向性を持つM個のマイクロホンm,…,mが用いられる場合、wm’=1,wm’’=0(m’,m’’∈{2,…,M})として特定のマイクロホンmm’の受音信号だけを使用することで、任意の指向性を得ることもできる。その他、例えば参考文献2「大賀、山崎、金田著、“音響システムとディジタル信号処理”電子情報通信学会発行」に記載されているような重みビームフォーミングのフィルタ係数を重み係数w1(ω),…,wM(ω)として用い、任意の指向性を実現してもよい。さらに所望音源の近くに別のマイクロホンがある場合には、そのマイクロホンの観測信号を周波数領域変換した信号を処理対象信号生成部の出力としても良い。
重み付け周波数領域信号w(ω)X(ω,t),…,w(ω)X(ω,t)は加算部432に入力される。加算部432は、重み付け周波数領域信号w(ω)X(ω,t),…,w(ω)X(ω,t)を加算して処理対象信号Y(ω,t)を出力する。その際、前述した基準点に対するマイクロホンm,…,mの伝搬遅延が補正されてもよい。
〔直間比計算部44/ステップS44〕
以下ではパワースペクトル密度又はその推定値をパワー推定値とした例を示す。
図9に例示するように、直間比計算部44は、受音パワー推定部441と、重み係数記憶部442と、指向性形成部443と、直接音抑圧パワー推定部444と、指向性形状分析部445と、間接音パワー推定部446と、直間比推定部447とを備える。
図8及び9に例示するように、周波数領域変換部42,…,42から出力された周波数領域信号X(ω,t),…,X(ω,t)は、直間比計算部44の受音パワー推定部441と指向性形成部443に入力される。受音パワー推定部441は、周波数領域信号X(ω,t),…,X(ω,t)を用い、受音信号に対応する周波数領域信号のパワー推定値を生成して出力する。このパワー推定値は、何れか1個のマイクロホンm(m∈{1,…,M})に対応する周波数領域信号X(ω,t)のパワー推定値であってもよいし、周波数領域信号X(ω,t),…,X(ω,t)それぞれのパワー推定値を重み付け平均したものであってもよい。実施例1では、受音信号に対応する周波数領域信号のパワー推定値としてパワースペクトル密度P(ω)を求める。ここでは、K個のフレーム(L−1)+1,...,(L−1)+KからなるブロックLごとにパワースペクトル密度P(ω)が得られる例を示し、ブロックLで得られるパワースペクトル密度P(ω)をPX,L(ω)と表す。式(16)は1個のマイクロホンmのパワースペクトル密度をPX,L(ω)とする例であり、式(17)は周波数領域信号X(ω,t),…,X(ω,t)それぞれのパワースペクトル密度の重み付け平均値をPX,L(ω)とする例である。
Figure 0005635024
重み係数記憶部442には、前述した直接音源方向θから到来した信号成分を抑圧するビームフォーマのフィルタ係数W(ω),...,W(ω)が格納されている。指向性形成部443は、重み係数記憶部442から読み出したフィルタ係数W(ω),...,W(ω)を用い、入力された周波数領域信号X(ω,t),…,X(ω,t)に対して直接音源方向θから到来した信号成分を抑圧する処理を行い、それによって得られた直接音抑圧信号ND(ω,t)を生成して出力する。例えば、指向性形成部443は、以下のように直接音抑圧信号ND(ω,t)を生成する。
Figure 0005635024
直接音抑圧パワー推定部444には、直接音抑圧信号ND(ω,t)を入力とし、直接音抑圧信号ND(ω,t)のパワー推定値を生成して出力する。実施例1では、直接音抑圧信号X(ω,t)のパワー推定値としてパワースペクトル密度PND(ω)を求める。ここでは、ブロックLごとにパワースペクトル密度PND(ω)が得られる例を示し、ブロックLで得られるパワースペクトル密度PND(ω)をPND,L(ω)と表す。
Figure 0005635024
指向性形状分析部445は、重み係数記憶部442から読み出したフィルタ係数W(ω),…,W(ω)を用い、前述した直接音源方向θから到来した信号成分を抑圧するビームフォーマによって形成される指向特性を表す関数D(ω,θ)、すなわち指向性の形状を生成して出力する。例えば、指向性形状分析部445は、マイクロホンアレー41の基準点及びマイクロホンm,…,mに対応するAθ(ω)等の情報を事前に取得しており、これらとフィルタ係数W(ω),…,W(ω)とを用い、例えば式(5)に従ってD(ω,θ)を生成する。さらに指向性形状分析部445は、D(ω,θ)を用いて指向性形状補正係数R(ω)を生成して出力する。指向性形状補正係数R(ω)の例は、前述した指向性形状補正係数の具体例1〜4である。
間接音パワー推定部446には、直接音抑圧信号ND(ω,t)のパワー推定値であるパワースペクトル密度をPND,L(ω)と、指向性形状補正係数R(ω)とが入力される。間接音パワー推定部446は、指向性形状補正係数R(ω)を用い、直接音抑圧信号ND(ω,t)のパワー推定値であるパワースペクトル密度PND,L(ω)を補正し、間接音のパワー推定値を生成して出力する。実施例1では、以下のように間接音のパワースペクトル密度の推定値P(ω)をブロックLごとに求める。なお、ブロックLでのパワースペクトル密度の推定値P(ω)をPR,L(ω)と表現する。
PR,L(ω)=R(ω)PND,L(ω) (20)
直間比推定部447には、周波数領域信号のパワー推定値であるパワースペクトル密度PX,L(ω)及び間接音のパワー推定値であるパワースペクトル密度の推定値PR,L(ω)が入力される。直間比推定部447は、これらを用いて周波数領域信号X1(ω,t),…,XM(ω,t)の直間比推定値DRRを生成して出力する。直間比推定値DRRの例は、直間比推定値DRRの具体例1〜9である。実施例1では、直間比推定値DRRの具体例1〜9のP(ω)をPX,L(ω)に、P(ω)をPR,L(ω)に、それぞれ置換して得られる直間比推定値DRR又はDRR(ω)が得られることにする。
〔対象信号調整部45/ステップS45〕
図6に例示するように、信号調整部45は、例えば、フィルタ係数算出部451と、乗算部452とを具備する。フィルタ係数算出部451は、直間比推定値DRR又はDRR(ω)を入力として、直間比推定値DRR又はDRR(ω)に応じた大きさのゲイン(フィルタ係数)G(ω,t)を定めて出力する。
周波数ωごとの直間比推定値DRR(ω)が入力される場合、フィルタ係数算出部45は、例えば、各直間比推定値DRR(ω)に応じ、周波数ω及びブロックLに属する各フレームt=(L−1)+1,...,(L−1)+Kに対応するゲインG(ω,t)を定める。周波数ωに依存しない直間比推定値DRRが入力される場合、フィルタ係数算出部45は、例えば、各直間比推定値DRRに応じ、ブロックLに属する各フレームt=(L−1)+1,...,(L−1)+Kに対応する全周波数ωでのゲインG(ω,t)を定める。
前述のように、例えば、マイクロホンアレー41に近い直接音源から発せられた音をより強調する場合には、直間比推定値DRR又はDRR(ω)が表す間接音のパワー推定値に対する直接音のパワー推定値の比率が所定の閾値よりも大きい場合のゲインG(ω,t)(t=(L−1)+1,...,(L−1)+K)を、当該比率が上記所定の閾値よりも小さい場合のゲインG(ω,t)よりも大きくする。例えば、マイクロホンアレー41に遠い直接音源から発せられた音をより強調する場合には、直間比推定値DRR又はDRR(ω)が表す間接音のパワー推定値に対する直接音のパワー推定値の比率が所定の閾値よりも大きい場合のゲインG(ω,t)(t=(L−1)+1,...,(L−1)+K)を、当該比率が上記所定の閾値よりも小さい場合のゲインG(ω,t)よりも小さくする。
例えば、式(21)又は(22)に示すようにゲインG(ω,t)を定めた場合、特定の距離範囲より近い直接音源から発せられた音を強調することができる。
Figure 0005635024

ただし、t=(L−1)+1,...,(L−1)+Kである。直間比推定値DRR又はDRR(ω)の最小値と最大値の間の任意の値が閾値Thとされる。閾値Thを最小値(0)に近づけると音質は向上する。逆に閾値Thを最大値に近づけると雑音抑圧効果は高めるが受音信号の歪みが大きくなり音質が劣化する。このように閾値Thは、音質と雑音抑圧との関係でトレードオフの関係を持つ。よって、閾値Thは、このトレードオフの関係を考慮した上で、利用目的に応じて経験的に決定される。
或いは例えば、式(23)又は(24)に示すようにゲインG(ω,t)を定めた場合、特定の距離範囲より遠い直接音源から発せられた音を強調することができる。
Figure 0005635024

ただし、t=(L−1)+1,...,(L−1)+Kである。直間比推定値DRR又はDRR(ω)の最小値と最大値の間の任意の値が閾値Thとされる。
なお、式(21)〜(24)ではゲインG(ω,t)が0か1をとる例を挙げたが、これは本発明を限定しない。すなわち、閾値判定の結果に応じ、ゲインG(ω,t)がその他の2値(例えば、0.1と0.9)の何れかとされてもよい。また、ゲインG(ω,t)が1以上の実数であってもよい。つまり、処理対象信号Y(ω,t)を増幅するゲインG(ω,t)が定められてもよい。また、処理対象信号Y(ω,t)を大きく抑圧するゲインG(ω,t)(例えば0.1以下の値)が定められてもよい。また、前述のように、直間比推定値DRRに応じてどのような大きさのゲインを定めるかは、直間比推定値DRRが表す間接音のパワー推定値に対する直接音のパワー推定値の比率と所定の閾値との大小比較により決定する方法に限らない。その場合、例えば、マイクロホンアレー41に近い直接音源から発せられた音をより強調する場合には、直間比推定値DRR又はDRR(ω)が表す間接音のパワー推定値に対する直接音のパワー推定値の比率が第1値である場合のゲインG(ω,t)(t=(L−1)+1,...,(L−1)+K)を、当該比率が第1値よりも小さな第2値である場合のゲインG(ω,t)よりも大きくする。例えば、マイクロホンアレー41に遠い直接音源から発せられた音をより強調する場合には、直間比推定値DRR又はDRR(ω)が表す間接音のパワー推定値に対する直接音のパワー推定値の比率が第1値である場合のゲインG(ω,t)(t=(L−1)+1,...,(L−1)+K)を、当該比率が第1値よりも小さな第2値である場合のゲインG(ω,t)よりも小さくする。すなわち、閾値判定によってゲインG(ω,t)を定めるのではなく、直間比推定値やその関数値がゲインG(ω,t)とされてもよい。例えば、以下の式(25)〜(28)のようにゲインG(ω,t)が定められてもよい。
G(ω,t)=DRRL (t=(L-1)+1,...,(L-1)+K) (25)
G(ω,t)=DRRL(ω) (t=(L-1)+1,...,(L-1)+K) (26)
G(ω,t)=F(DRRL) (t=(L-1)+1,...,(L-1)+K) (27)
G(ω,t)=F(DRRL(ω)) (t=(L-1)+1,...,(L-1)+K) (28)
ただし、Fは単調増加関数又は単調減少関数などの関数である。
フィルタ係数算出部451から出力されたゲインG(ω,t)と、処理対象信号生成部43から出力された処理対象信号Y(ω,t)は、乗算部452に入力される。乗算部452は、ゲインG(ω,t)を処理対象信号Y(ω,t)に乗じて、処理後信号Z(ω,t)=G(ω,t)Y(ω,t)を生成して出力する。
実施例2では、実施例1と同様に求めた直間比推定値を用い、直接音源の遠近判定を行って遠近判定結果を生成する。すなわち、直間比推定値がフレームで受音された受音信号に基づいて得られ、1個以上のフレームからなる判定区間で受音された受音信号に基づいて得られた直間比推定値に対応する判定値と、判定区間よりも多くの個数のフレームからなる基準区間で受音された受音信号に基づいて得られた複数の直間比推定値に対応する基準値とを用いた比較判定によって、判定区間での直接音源の遠近判定が行われる。
判定区間の例は、フレームやブロックである。基準区間の例は、複数のフレーム、ブロック、複数のブロックである。リアルタイム処理の場合には、基準区間は判定区間より過去の区間であるか、判定区間を含むそれより過去の区間である。バッチ処理の場合には、基準区間は判定区間より過去の区間であってもよいし、未来の区間であってもよいし、判定区間を含む区間であってもよい。判定値の例は、直間比推定値又は直間比推定値の単調増加関数値などの関数値である。基準値の例は、基準区間で受音された受音信号に基づいて得られた複数の直間比推定値の平均値、期待値、重み付け加算値である。直接音源の遠近判定では、例えば、判定値と基準値とを用いた比較判定によって、基準値が判定値よりも大きい場合に第1遠近判定結果を表す値(例えば1)を出力し、そうでない場合に第2遠近判定結果を表す値(例えば2)を出力する。判定値と基準値とを用いた比較判定の例は、判定値と基準値との大小判定、基準値に対する判定値の比率を表す値と閾値との大小判定などである。第1,2遠近判定結果の一方は「直接音源が遠い」ことを意味し、他方は「直接音源が近い」ことを意味する。第1,2遠近判定結果の何れが「直接音源が遠い」ことを意味するかは、直間比推定値の定義によって異なる。例えば、判定値が判定区間での間接音のパワー推定値に対する直接音のパワー推定値の比率を表し、基準値が基準区間での間接音のパワー推定値に対する直接音のパワー推定値の比率の平均値を表す場合、判定値が基準値よりも小さいのであれば、直接音源が遠いことを表す遠近判定結果が生成され、そうでなければ直接音源が近いことを表す遠近判定結果が生成される。以下に具体例を説明する。
図11に、実施例2の遠近判定装置120の機能構成例を示す。遠近判定装置120は、マイクロホンアレー41と、複数の周波数領域変換部411〜41mと、直間比計算部44と、遠近判定部121とを備える。遠近判定部121は、蓄積部1211と、判定部1212を備える。マイクロホンアレー41と、複数の周波数領域変換部411〜41mと、直間比計算部44とは、音響信号強調装置400のものと同じである。遠近判定装置120も、マイクロホンアレー41を除く各機能構成部は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現される。
遠近判定装置120は、マイクロホンアレー41の基準点からの距離が異なる複数の直接音源が異なる時刻に発音するときに、ある時刻に受音された音の音源が遠くにあるのか近くにあるのかを判定する。複数の直接音源は同一の直接音源方向に存在してもよいし、異なる直接音源方向に存在してもよい。遠近判定装置120を構成する遠近判定部121は、周波数平均部1210と、蓄積部1211と、判定部1212とを備える。
以下では直間比相当値としてDRRを用いた場合を例示するが、これは本発明を限定しない。すなわち、直間比相当値DRRの代わりに何れかの周波数ωに対応する直間比相当値DRR(ω)が用いられてもよいし、式(29)の直間比相当値DRR(ω)の重み付け加算値DRR -が用いられてもよい。
Figure 0005635024

ただしγ(ω)は重み係数であり、γ(ω)の一例は1/Γである。Γは周波数の総数であり、例えば、周波数領域変換部42〜42が短時間フーリエ変換を行う場合、Γはは周波数ビンの総数となる。
また以下では、直間比相当値DRRが間接音のパワー推定値に対する直接音のパワー推定値の比率である場合を例示するが、その他の値を直間比相当値としてよいことは前述した通りである。
直間比計算部44から出力されたDRRは蓄積部1211と判定部1212に入力される。蓄積部1211は、例えば、直間比相当値DRRを過去σ個(σは2以上の整数)のブロック(基準区間の例)分蓄積して、当該σ個のブロック分のDRRに対応する基準値DRR’を出力する。基準値DRR’には、例えば、例えば蓄積されたσ個のブロック分のDRRの平均値や、蓄積されたσ個のブロックでのDRRの最小値と最大値との平均値等が用いられる。
判定部1212は、ブロックL(判定区間の例)での直間比相当値DRRを判定値とし、基準値DRR’と判定値DRRを比較する。DRR’>DRRの場合、判定部1212は、距離が遠いことを表す遠近判定結果Y(L)(例えばY(L)=1)を出力する。そうでない場合、判定部1212は距離が近いことを表す遠近判定結果Y(L)(例えばY(L)=0)を出力する。この遠近判定結果Y(L)は、ブロックLでの受音信号が、比較的近い直接音源からの音であるか、又は、比較的遠い直接音源からの音であるかを表すものである。この遠近判定結果Y(L)を用いることで、逐次入力される受音信号を、マイクロホンとその直接音源間との距離によって切り分けることが可能である。つまり、複数の直接音源の音を、マイクロホンからの距離に応じて選択することができる。
なお、本発明は上述の実施形態に限定されるものではない。
例えば、上述の周波数領域で行われた処理の一部が時間領域で実行されてもよい。
例えば、上述の実施形態では、指向性形成部443が、周波数領域のフィルタ係数W(ω),...,W(ω)を周波数領域信号X(ω,t),…,X(ω,t)に適用し、それによって直接音源方向θから到来した信号成分を抑圧した直接音抑圧信号ND(ω,t)を生成した。しかしながら、時間領域で受音信号x(n),…,x(n)のディジタル信号に対して直接音源方向から到来した信号成分を抑圧する処理を行い、それによって得られた信号を周波数領域に変換して直接音抑圧信号ND(ω,t)が生成されてもよい。すなわち、受音信号x(n),…,x(n)のディジタル信号に対し、フィルタ係数W(ω),...,W(ω)に対応する時間領域のフィルタ係数を畳み込み、その結果を周波数領域に変換して直接音抑圧信号ND(ω,t)が生成されてもよい。
また、上述の実施形態では、処理対象信号生成部43が処理対象信号Y(ω,t)を出力し、対象信号調整部45が、直間比推定値DRRに応じた大きさのゲインを処理対象信号Y(ω,t)に乗じた。しかしながら、処理対象信号生成部43がY(ω,t)を時間領域に変換した信号y(n’)を出力し、対象信号調整部45が、直間比推定値DRRに応じた大きさのゲインを時間領域の信号y(n’)に乗じてもよい。この場合には逆周波数領域変換部46は不要となる。
音響信号強調装置400や遠近判定装置120に含まれる機能構成が外部の装置によって実現されてもよい。例えば、音響信号強調装置400や遠近判定装置120が、マイクロホンアレーが含まず、外部のマイクロホンアレーに接続されて同様の機能が実現されてもよい。同様に、音響信号強調装置400や遠近判定装置120が、周波数領域変換部や逆周波数領域変換部を含まず、外部の周波数領域変換部や逆周波数領域変換部を利用して同様の機能が実現されてもよい。
その他、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。
実施例では、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部がハードウェアで実現されてもよい。
400 音響信号強調装置
120 遠近判定装置

Claims (11)

  1. マイクロホンアレーに含まれる複数個のマイクロホンで受音された受音信号を周波数領域に変換して得られる周波数領域信号を用い、前記周波数領域信号のパワー推定値を得る受音パワー推定部と、
    前記周波数領域信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた直接音抑圧信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた信号を周波数領域に変換して得られた直接音抑圧信号のパワー推定値を得る直接音抑圧パワー推定部と、
    前記直接音源方向から到来した信号成分を抑圧する指向特性を表す関数から得られた指向性形状補正係数を用い、前記直接音抑圧信号のパワー推定値を補正し、間接音のパワー推定値を得る間接音パワー推定部と、
    前記周波数領域信号のパワー推定値及び前記間接音のパワー推定値を用い、前記間接音のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比推定部と、
    前記直間比推定値に応じたゲインを前記受音信号から得られる処理対象信号に乗じ、処理後信号を得る対象信号調整部を有し、
    前記直間比推定値が表す前記比率が所定の閾値よりも大きい場合に前記処理対象信号に乗じられる前記ゲインは、前記比率が前記所定の閾値よりも小さい場合に前記処理対象信号に乗じられる前記ゲインよりも大きい、音響信号強調装置。
  2. マイクロホンアレーに含まれる複数個のマイクロホンで受音された受音信号を周波数領域に変換して得られる周波数領域信号を用い、前記周波数領域信号のパワー推定値を得る受音パワー推定部と、
    前記周波数領域信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた直接音抑圧信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた信号を周波数領域に変換して得られた直接音抑圧信号のパワー推定値を得る直接音抑圧パワー推定部と、
    前記直接音源方向から到来した信号成分を抑圧する指向特性を表す関数から得られた指向性形状補正係数を用い、前記直接音抑圧信号のパワー推定値を補正し、間接音のパワー推定値を得る間接音パワー推定部と、
    前記周波数領域信号のパワー推定値及び前記間接音のパワー推定値を用い、前記間接音のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比推定部と、
    前記直間比推定値に応じたゲインを前記受音信号から得られる処理対象信号に乗じ、処理後信号を得る対象信号調整部を有し、
    前記直間比推定値が表す前記比率が所定の閾値よりも大きい場合に前記処理対象信号に乗じられる前記ゲインは、前記比率が前記所定の閾値よりも小さい場合に前記処理対象信号に乗じられる前記ゲインよりも小さい、音響信号強調装置。
  3. マイクロホンアレーに含まれる複数個のマイクロホンで受音された受音信号を周波数領域に変換して得られる周波数領域信号を用い、前記周波数領域信号のパワー推定値を得る受音パワー推定部と、
    前記周波数領域信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた直接音抑圧信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた信号を周波数領域に変換して得られた直接音抑圧信号のパワー推定値を得る直接音抑圧パワー推定部と、
    前記直接音源方向から到来した信号成分を抑圧する指向特性を表す関数から得られた指向性形状補正係数を用い、前記直接音抑圧信号のパワー推定値を補正し、間接音のパワー推定値を得る間接音パワー推定部と、
    前記周波数領域信号のパワー推定値及び前記間接音のパワー推定値を用い、前記間接音のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比推定部と、
    前記直間比推定値を用い、前記直接音源の遠近判定を行って遠近判定結果を得る遠近判定部を有し、
    前記直間比推定値は、所定の時間区間であるフレームで受音された前記受音信号に基づいて得られ、
    前記遠近判定部は、1個以上のフレームからなる判定区間で受音された前記受音信号に基づいて得られた前記直間比推定値に対応する判定値と、前記判定区間よりも多くの個数のフレームからなる基準区間で受音された前記受音信号に基づいて得られた複数の前記直間比推定値に対応する基準値とを用いた比較判定によって、前記判定区間での前記直接音源の遠近判定を行う、遠近判定装置。
  4. マイクロホンアレーに含まれる複数個のマイクロホンで受音された受音信号を周波数領域に変換して得られる周波数領域信号を用い、前記周波数領域信号のパワー推定値を得る受音パワー推定部と、
    前記周波数領域信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた直接音抑圧信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた信号を周波数領域に変換して得られた直接音抑圧信号のパワー推定値を得る直接音抑圧パワー推定部と、
    前記直接音源方向から到来した信号成分を抑圧する指向特性を表す関数から得られた指向性形状補正係数を用い、前記直接音抑圧信号のパワー推定値を補正し、間接音のパワー推定値を得る間接音パワー推定部と、
    前記周波数領域信号のパワー推定値及び前記間接音のパワー推定値を用い、前記間接音のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比推定部と、
    前記直間比推定値に応じたゲインを前記受音信号から得られる処理対象信号に乗じ、処理後信号を得る対象信号調整部を有し、
    前記直間比推定値が表す前記比率が第1値である場合に前記処理対象信号に乗じられる前記ゲインは、前記比率が前記第1値よりも小さな第2値である場合に前記処理対象信号に乗じられる前記ゲインよりも大きい、音響信号強調装置。
  5. マイクロホンアレーに含まれる複数個のマイクロホンで受音された受音信号を周波数領域に変換して得られる周波数領域信号を用い、前記周波数領域信号のパワー推定値を得る受音パワー推定部と、
    前記周波数領域信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた直接音抑圧信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた信号を周波数領域に変換して得られた直接音抑圧信号のパワー推定値を得る直接音抑圧パワー推定部と、
    前記直接音源方向から到来した信号成分を抑圧する指向特性を表す関数から得られた指向性形状補正係数を用い、前記直接音抑圧信号のパワー推定値を補正し、間接音のパワー推定値を得る間接音パワー推定部と、
    前記周波数領域信号のパワー推定値及び前記間接音のパワー推定値を用い、前記間接音のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比推定部と、
    前記直間比推定値に応じたゲインを前記受音信号から得られる処理対象信号に乗じ、処理後信号を得る対象信号調整部を有し、
    前記直間比推定値が表す前記比率が第1値である場合に前記処理対象信号に乗じられる前記ゲインは、前記比率が前記第1値よりも小さな第2値である場合に前記処理対象信号に乗じられる前記ゲインよりも小さい、音響信号強調装置。
  6. マイクロホンアレーに含まれる複数個のマイクロホンで受音された受音信号を周波数領域に変換して得られる周波数領域信号を用い、前記周波数領域信号のパワー推定値を得る受音パワー推定ステップと、
    前記周波数領域信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた直接音抑圧信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた信号を周波数領域に変換して得られた直接音抑圧信号のパワー推定値を得る直接音抑圧パワー推定ステップと、
    前記直接音源方向から到来した信号成分を抑圧する指向特性を表す関数から得られた指向性形状補正係数を用い、前記直接音抑圧信号のパワー推定値を補正し、間接音のパワー推定値を得る間接音パワー推定ステップと、
    前記周波数領域信号のパワー推定値及び前記間接音のパワー推定値を用い、前記間接音のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比推定ステップと、
    前記直間比推定値に応じたゲインを前記受音信号から得られる処理対象信号に乗じ、処理後信号を得る対象信号調整ステップを有し、
    前記直間比推定値が表す前記比率が所定の閾値よりも大きい場合に前記処理対象信号に乗じられる前記ゲインは、前記比率が前記所定の閾値よりも小さい場合に前記処理対象信号に乗じられる前記ゲインよりも大きい、音響信号強調方法。
  7. マイクロホンアレーに含まれる複数個のマイクロホンで受音された受音信号を周波数領域に変換して得られる周波数領域信号を用い、前記周波数領域信号のパワー推定値を得る受音パワー推定ステップと、
    前記周波数領域信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた直接音抑圧信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた信号を周波数領域に変換して得られた直接音抑圧信号のパワー推定値を得る直接音抑圧パワー推定ステップと、
    前記直接音源方向から到来した信号成分を抑圧する指向特性を表す関数から得られた指向性形状補正係数を用い、前記直接音抑圧信号のパワー推定値を補正し、間接音のパワー推定値を得る間接音パワー推定ステップと、
    前記周波数領域信号のパワー推定値及び前記間接音のパワー推定値を用い、前記間接音のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比推定ステップと、
    前記直間比推定値に応じたゲインを前記受音信号から得られる処理対象信号に乗じ、処理後信号を得る対象信号調整ステップを有し、
    前記直間比推定値が表す前記比率が所定の閾値よりも大きい場合に前記処理対象信号に乗じられる前記ゲインは、前記比率が上記所定の閾値よりも小さい場合に前記処理対象信号に乗じられる前記ゲインよりも小さい、音響信号強調方法。
  8. マイクロホンアレーに含まれる複数個のマイクロホンで受音された受音信号を周波数領域に変換して得られる周波数領域信号を用い、前記周波数領域信号のパワー推定値を得る受音パワー推定ステップと、
    前記周波数領域信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた直接音抑圧信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた信号を周波数領域に変換して得られた直接音抑圧信号のパワー推定値を得る直接音抑圧パワー推定ステップと、
    前記直接音源方向から到来した信号成分を抑圧する指向特性を表す関数から得られた指向性形状補正係数を用い、前記直接音抑圧信号のパワー推定値を補正し、間接音のパワー推定値を得る間接音パワー推定ステップと、
    前記周波数領域信号のパワー推定値及び前記間接音のパワー推定値を用い、前記間接音のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比推定ステップと、
    前記直間比推定値を用い、前記直接音源の遠近判定を行って遠近判定結果を得る遠近判定ステップを有し、
    前記直間比推定値は、所定の時間区間であるフレームで受音された前記受音信号に基づいて得られ、
    前記遠近判定ステップは、1個以上のフレームからなる判定区間で受音された前記受音信号に基づいて得られた前記直間比推定値に対応する判定値と、前記判定区間よりも多くの個数のフレームからなる基準区間で受音された前記受音信号に基づいて得られた複数の前記直間比推定値に対応する基準値とを用いた比較判定によって、前記判定区間での前記直接音源の遠近判定を行う、遠近判定方法。
  9. マイクロホンアレーに含まれる複数個のマイクロホンで受音された受音信号を周波数領域に変換して得られる周波数領域信号を用い、前記周波数領域信号のパワー推定値を得る受音パワー推定ステップと、
    前記周波数領域信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた直接音抑圧信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた信号を周波数領域に変換して得られた直接音抑圧信号のパワー推定値を得る直接音抑圧パワー推定ステップと、
    前記直接音源方向から到来した信号成分を抑圧する指向特性を表す関数から得られた指向性形状補正係数を用い、前記直接音抑圧信号のパワー推定値を補正し、間接音のパワー推定値を得る間接音パワー推定ステップと、
    前記周波数領域信号のパワー推定値及び前記間接音のパワー推定値を用い、前記間接音のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比推定ステップと、
    前記直間比推定値に応じたゲインを前記受音信号から得られる処理対象信号に乗じ、処理後信号を得る対象信号調整ステップを有し、
    前記直間比推定値が表す前記比率が第1値である場合に前記処理対象信号に乗じられる前記ゲインは、前記比率が前記第1値よりも小さな第2値である場合に前記処理対象信号に乗じられる前記ゲインよりも大きい、音響信号強調方法。
  10. マイクロホンアレーに含まれる複数個のマイクロホンで受音された受音信号を周波数領域に変換して得られる周波数領域信号を用い、前記周波数領域信号のパワー推定値を得る受音パワー推定ステップと、
    前記周波数領域信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた直接音抑圧信号のパワー推定値、又は、前記受音信号に対して直接音源方向から到来した信号成分を抑圧する処理を行って得られた信号を周波数領域に変換して得られた直接音抑圧信号のパワー推定値を得る直接音抑圧パワー推定ステップと、
    前記直接音源方向から到来した信号成分を抑圧する指向特性を表す関数から得られた指向性形状補正係数を用い、前記直接音抑圧信号のパワー推定値を補正し、間接音のパワー推定値を得る間接音パワー推定ステップと、
    前記周波数領域信号のパワー推定値及び前記間接音のパワー推定値を用い、前記間接音のパワー推定値に対する直接音のパワー推定値の比率を表す直間比推定値を得る直間比推定ステップと、
    前記直間比推定値に応じたゲインを前記受音信号から得られる処理対象信号に乗じ、処理後信号を得る対象信号調整ステップを有し、
    前記直間比推定値が表す前記比率が第1値である場合に前記処理対象信号に乗じられる前記ゲインは、前記比率が前記第1値よりも小さな第2値である場合に前記処理対象信号に乗じられる前記ゲインよりも小さい、音響信号強調方法。
  11. 請求項1、2、4若しくは5の音響信号強調装置、又は請求項3の遠近判定装置としてコンピュータを機能させるためのプログラム。
JP2012038299A 2012-02-24 2012-02-24 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム Active JP5635024B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012038299A JP5635024B2 (ja) 2012-02-24 2012-02-24 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012038299A JP5635024B2 (ja) 2012-02-24 2012-02-24 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013175869A JP2013175869A (ja) 2013-09-05
JP5635024B2 true JP5635024B2 (ja) 2014-12-03

Family

ID=49268423

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012038299A Active JP5635024B2 (ja) 2012-02-24 2012-02-24 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5635024B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101893768B1 (ko) * 2017-02-27 2018-09-04 주식회사 브이터치 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
CN110444220B (zh) * 2019-08-01 2023-02-10 浙江大学 一种多模态远程语音感知方法及装置
CN110364161A (zh) 2019-08-22 2019-10-22 北京小米智能科技有限公司 响应语音信号的方法、电子设备、介质及***
CN118098260A (zh) * 2024-03-26 2024-05-28 荣耀终端有限公司 一种语音信号处理方法及相关设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2961916B2 (ja) * 1991-03-08 1999-10-12 三菱電機株式会社 音声認識装置
JP3677143B2 (ja) * 1997-07-31 2005-07-27 株式会社東芝 音声処理方法および装置
US20020138254A1 (en) * 1997-07-18 2002-09-26 Takehiko Isaka Method and apparatus for processing speech signals
JP2005303574A (ja) * 2004-04-09 2005-10-27 Toshiba Corp 音声認識ヘッドセット
JP4873913B2 (ja) * 2004-12-17 2012-02-08 学校法人早稲田大学 音源分離システムおよび音源分離方法、並びに音響信号取得装置
JP5143802B2 (ja) * 2009-09-01 2013-02-13 日本電信電話株式会社 雑音除去装置、遠近判定装置と、各装置の方法と、装置プログラム

Also Published As

Publication number Publication date
JP2013175869A (ja) 2013-09-05

Similar Documents

Publication Publication Date Title
KR101456866B1 (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
US9042573B2 (en) Processing signals
US8675890B2 (en) Speaker localization
CN111044973B (zh) 一种用于麦克风方阵的mvdr目标声源定向拾音方法
JP5079761B2 (ja) 直間比推定装置、音源距離測定装置、雑音除去装置、各装置の方法と、装置プログラム
JP4724054B2 (ja) 特定方向収音装置、特定方向収音プログラム、記録媒体
WO2008121905A2 (en) Enhanced beamforming for arrays of directional microphones
JP2010517047A (ja) マルチセンサ音源定位
EP3189521A1 (en) Method and apparatus for enhancing sound sources
JP5772151B2 (ja) 音源分離装置、プログラム及び方法
JP2001309483A (ja) 収音方法および収音装置
Huleihel et al. Spherical array processing for acoustic analysis using room impulse responses and time-domain smoothing
JP5738218B2 (ja) 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム
JP5635024B2 (ja) 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム
JP4928382B2 (ja) 特定方向収音装置、特定方向収音方法、特定方向収音プログラム、記録媒体
JP5175262B2 (ja) 音声取得装置
JP3154468B2 (ja) 受音方法及びその装置
JP5143802B2 (ja) 雑音除去装置、遠近判定装置と、各装置の方法と、装置プログラム
JP5698166B2 (ja) 音源距離推定装置、直間比推定装置、雑音除去装置、それらの方法、及びプログラム
JP3588576B2 (ja) 収音装置および収音方法
JP5683140B2 (ja) 耐雑音直間比推定装置、干渉雑音除去装置、遠近判定装置、音源距離測定装置と、各装置の方法と、装置プログラム
JP5713933B2 (ja) 音源距離測定装置、音響直間比推定装置、雑音除去装置、それらの方法、及びプログラム
JP5826465B2 (ja) 瞬時直間比推定装置、雑音除去装置、遠近判定装置、音源距離測定装置と、各装置の方法と、装置プログラム
JP2010103617A (ja) 発話向き推定装置、方法及びプログラム
JP3540988B2 (ja) 発音体指向性補正方法およびその装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140918

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141015

R150 Certificate of patent or registration of utility model

Ref document number: 5635024

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150