JP5486568B2

JP5486568B2 - 音声スポット再生処理方法、装置、プログラム

Info

Publication number: JP5486568B2
Application number: JP2011190803A
Authority: JP
Inventors: 健太丹羽; 弘章伊藤; 澄宇阪内; 賢一古家; 陽一羽田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-12-21
Filing date: 2011-09-01
Publication date: 2014-05-07
Anticipated expiration: 2031-09-01
Also published as: JP2012147414A

Description

本発明は、所望の位置を含む狭い領域（スポット）に音声を再生するための信号処理技術（音声スポット再生処理技術）に関する。

スピーカを利用した音声再生の状況として、特定の方向に十分な音量で音声を再生することが望まれる状況がある。例えば、展示場で展示物の前方の限られたエリアのみに当該展示物を説明する音声を再生する場合や、階段の手前や駅のプラットホームの縁などの限られたエリアで注意喚起を促す音声を再生する場合である。このような、スピーカから見て所望の方向（目的方向）を含む狭い範囲に音声を再生するための信号処理技術（狭指向音声再生処理技術）は、従来から研究・開発されている。なお、スピーカの周囲とスピーカから発せられた音声の音圧との関係（音圧分布）は指向性と呼ばれ、或る方向への指向性が鋭いほど、当該方向を含む狭い範囲に音声を再生し、当該範囲以外の範囲で当該音声の音圧を抑圧することができる。ここでは、狭指向音声再生処理技術に関する３つの従来技術を例示する。なお、この明細書では、「音声」は、人の発する声に限定されるものではなく、人や動物の声はもとより楽音や環境雑音など「音」一般を指す。

[１]物理特性を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、ホーンスピーカとパラボラスピーカが挙げられる。ホーンスピーカは、例えば、スピーカの前方に、開口端に向けて断面面積が徐々に広くなるような喇叭状ホーンが取り付けられたスピーカである。ホーン長が長ければ長いほど、ホーンスピーカの指向性は鋭くなる。パラボラスピーカは、パラボラ板（放物面）の焦点にスピーカが配置された構成を持ち、スピーカからパラボラ板に向かって音声を放射することによって、パラボラ板の頂点とパラボラ板の焦点とを結ぶ直線の方向に音声が伝達する。

[２]超音波を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、パラメトリックスピーカが挙げられる（例えば特許文献１参照）。パラメトリックスピーカは、直進性の強い超音波を搬送波として、例えば超音波が音源信号で振幅変調された変調波を大音圧で放射する。変調波が空気中を伝播する過程で空気の非線形特性によって歪み成分が生じ、この歪み成分と人間の聴覚特性に起因して可聴帯域の音声が出現する。

[３]信号処理を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、フェーズドスピーカアレーが挙げられる（例えば非特許文献１参照）。フェーズドスピーカアレーは、複数のスピーカで構成されたスピーカアレーであり、音源信号に時間差やレベル差の情報が含まれているフィルタを掛けて重畳する信号処理を行うことで得られた信号を各スピーカに入力して音声を空間放射し、この結果、目的方向に音声が再生される。

ところで、或る方向に対してだけでなく、特定の狭い領域に居る聴取者にのみ音声を伝えるスポット再生が可能となれば、拡声による通信を行った場合などに再生音声が聴取者以外の人々にとって騒音とならないだけでなく、通信内容が周囲に漏れにくいというプライバシーの保護もより一層高まる。

このような、所望の位置を含む狭い領域（スポット）に音声を再生するための信号処理技術（音声スポット再生処理技術）として、特定の領域の境界上の音圧を制御すると、当該領域の外側の音場も制御可能であるという境界音場制御理論に基づき、境界上の音圧がゼロとなるように制御することでスポット再生を実現しようという従来技術がある（特許技術文献２参照）。

特開２０１０−２５８９３８号公報特開２００６−７４４４２号公報

羽田陽一、片岡章俊、「自由空間伝達関数を用いた多点制御に基づく小型スピーカアレーの実空間性能」、日本音響学会春季講演論文集、pp.631-632，2008.

従来技術は、優れた点がある他方で、例えば下記（１）〜（５）の一つまたは複数の課題も持っていた。
（１）目的方向にスピーカ自体を向けないと、目的方向に音声を再生することができない。つまり、目的方向が変わりえる場合には、人の身体活動に拠らないのであれば、ホーンスピーカやパラボラスピーカそのものの向きを変更するための駆動制御手段が必要になってしまう。
（２）指向性はスポットの広狭に係るから、できるだけ狭いスポットに音声を再生しようとするならば狭指向性の実現が望まれる。しかし、見込み角５°〜１０°程度の狭指向性（目的方向に対して±５°〜±１０°程度の鋭い指向性）を実現することが困難である。
（３）狭指向性を実現するために、スピーカ数を増やし、アレーサイズ（アレーの全長）を大きくすることが必要となる。これはコストや配線の複雑さなどの観点から不利益である。
（４）スポット再生の音場の形成のために、スピーカを様々な場所に配置する必要がある。これはスピーカアレーを設置する空間の制約やコストなどの観点から不利益である。
（５）目的方向以外の方向の音声に埋もれないように目的方向に向けて音声を高SN比で再生することが難しい。

このような現状に鑑みて、本発明は、十分なSN比で音声を再生し、スピーカの物理的な移動を要することなく任意の方向に向けて音声を再生可能でもありながら、所望の位置を含む狭い領域（スポット）に音声を再生可能な音声スポット再生処理技術を提供することを目的とする。

音声のスポット再生位置として想定される一つまたは複数の位置に含まれる各位置（ただし、各位置を識別するための方向をi、距離をgとする）への各スピーカからの音声の伝達特性ａ_i,gを用いて、音声再生の対象となる位置について、周波数ごとのフィルタを求める[フィルタ設計処理]。Ｍは２以上の整数であり、Ｍ個のスピーカはスピーカアレーを構成する。スピーカアレーから放射された音声であって当該音声が反射物で反射した反射音の進行方向に受聴位置が存在する音声を双対音として、各伝達特性ａ_i,gは、方向iと距離gで定まる位置への直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される。フィルタは、周波数ごとに、音源信号が周波数領域に変換された周波数領域信号ＳをＭチャネルの周波数領域信号Ｘに変換するものである。フィルタ設計処理で求められたフィルタを、周波数ごとに周波数領域信号Ｓに適用してＭチャネルの周波数領域信号Ｘを得る[フィルタ適用処理]。Ｍチャネルの周波数領域信号Ｘを時間領域に変換して得られるＭチャネルの時間領域信号ｘは、通常、スピーカアレーで再生されることとなる。

各伝達特性ａ_i,gは、具体例として、直接音のステアリングベクトルと、反射による音の減衰および反射音の直接音に対する時間差が補正された一つ以上の双対音の各ステアリングベクトルとの和、あるいは、実環境下において実測で得られたものでもよい。

フィルタ設計処理では、音声再生の対象となる位置以外への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる位置での音声のSN比が最大となるように、周波数ごとにフィルタを求めてもよい。あるいは、Ｍ個のスピーカのうち一つのスピーカに対するフィルタ係数を一定値に固定した状態でスポット再生位置として想定される一つまたは複数の位置以外への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。

あるいは、フィルタ設計処理では、（１）音声再生の対象となる位置への音声の全帯域通過、および（２）一つ以上の抑圧点への音声の全帯域抑制、の条件の下、音声再生の対象となる位置と各抑圧点以外への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる位置i＝s，g＝hの伝達特性ａ_s,hを正規化することによって、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる位置以外の各位置に対応する伝達特性ａ_i,gによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる位置への音声の劣化量を所定量以下とする条件の下、音声再生の対象となる位置以外への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、スポット再生位置として想定される一つまたは複数の位置に含まれる各位置に対応する伝達特性ａ_i,gによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。

本発明に拠ると、音声再生対象方向への直接音だけでなく反射音も利用しているため、当該方向について十分に大きいSN比で再生可能であるとともに、信号処理によって当該方向への音声再生を行うことからスピーカの物理的な移動を要することなく任意の方向に向けて音声を再生可能でもある。さらに、詳しくは後述の《原理》の項目で説明するが、各伝達特性ａ_i,gを、方向iと距離gで定まる位置への直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表現することによって、一般的なフィルタ設計基準でフィルタを設計する際に、音声再生対象方向の指向性の広狭を決定付けるコヒーレンスの抑圧の度合いを高くするようなフィルタを設計できる。つまり、音声再生対象方向に対して従来よりも鋭い指向性を有することになる。さらに、詳しくは後述の《原理》の項目で説明するが、反射音を利用することによって、スピーカアレーから見てほぼ同じ方向だが距離が異なる受聴位置への音声について、異なる受聴位置に対応する伝達特性間に有意な差分が生じることになる。この伝達特性間の差分をビームフォーミング法で再現することによってスピーカアレーからの距離に応じて音声をスポット再生できる。

（ａ）直接音だけを考慮した場合に狭指向性が十分に実現できないことを模式的に示す図、（ｂ）直接音と反射音を考慮した場合に狭指向性が十分に実現できることを模式的に示す図。従来技術による場合と本発明の原理による場合のコヒーレンスの方向依存性を示す図。実施形態１に係る音声スポット再生処理装置の機能構成を示す図。実施形態１に係る音声スポット再生処理方法の処理手順を示す図。第１の実施例の構成を示す図。（ａ）スピーカアレーから二つの受聴位置A,Bへ直接音が届く様子を示す図。（ｂ）スピーカアレーから二つの受聴位置A,Bへ直接音が届く様子と、反射板によってスピーカアレーから二つの仮想受聴位置A(ξ),B(ξ)へ双対音が届く様子を示す図。（ａ）反射板を設置しなかった場合の最小分散ビームフォーマの指向性(２次元領域)。（ｂ）反射板を設置した場合の最小分散ビームフォーマの指向性(２次元領域)。本発明の実施構成例を示す図。（ａ）平面図。（ｂ）正面図。（ｃ）側面図。（ａ）本発明の別の実施構成例を示す側面図。（ｂ）本発明の別の実施構成例を示す側面図。図９（ｂ）に示す実施構成例における使用形態を示す図。本発明の実施構成例を示す図。（ａ）平面図。（ｂ）正面図。（ｃ）側面図。本発明の実施構成例を示す側面図。実施形態２に係る音声スポット再生処理装置の機能構成を示す図。実施形態２に係る音声スポット再生処理方法の処理手順を示す図。

《原理》
本発明の原理について説明する。本発明は、信号処理に基づいて任意の方向に向けて音声を再生できるというスピーカアレー技術の本質と、反射音を積極的に利用することによって高SN比で音声を再生することとを基本としつつ、鋭い指向性を可能とする信号処理技術を組み合わせたことを特徴の一つとしている。特に、スピーカアレーから見た方向がほぼ同じで距離だけが異なる受聴位置とスピーカアレーとの間の伝達特性はかなり類似していることに鑑みて、反射物を利用することによって、異なる受聴位置とスピーカアレーとの間の伝達特性の差分を大きくすることが本発明の顕著な特徴の一つと言える。伝達特性の差分を信号処理によって再現することによって、スピーカアレーからの距離に応じて音声をスポット再生可能な音声スポット再生処理技術が実現する。

周波数領域における信号処理を主に説明するので、説明に先立ち、記号を定義する。離散周波数のインデックスをω（周波数ｆと角周波数ωとの間にはω=2πfの関係があるから、離散周波数のインデックスωをこの角周波数ωと同一視してもかまわない。ωに関して「離散周波数のインデックス」を単に「周波数」ともいう）、フレーム番号のインデックスをkとする。1チャネルの音源信号の第kフレームの周波数領域表現をS(ω,k)、スピーカアレーの中心から見て方向θ_s且つスピーカアレーの中心から見て距離D_hだけ離れた位置を受聴位置（スポット再生位置ともいう）として設計されたフィルタであって周波数ωで音源信号の周波数領域信号S(ω,k)をMチャネルの周波数領域信号に変換するフィルタをW^→(ω,θ_s,D_h)、音源信号の周波数領域信号S(ω,k)にフィルタW^→(ω,θ_s,D_h)を適用して得られるMチャネルの周波数領域信号（以下、再生信号と呼ぶ）をX^→(ω,k)＝[X₁(ω,k),…,X_M(ω,k)]とする。Mは2以上の整数とする。以下、しばらくの間、距離D_hを固定して考える。

「スピーカアレーの中心」は任意に定めることができるが、一般的にはM個のスピーカの配置の幾何学的中心が「スピーカアレーの中心」とされ、例えば線形スピーカアレー（M個のスピーカが直線状に並べられたスピーカアレー）であれば両端のスピーカの中間点が「スピーカアレーの中心」とされ、例えばm×m（m²=M）の正方マトリックス状に配置された平面スピーカアレーであれば、四隅のスピーカの対角線が交わる位置が「スピーカアレーの中心」とされる。

このような下では、第kフレームの再生信号X^→(ω,k)＝[X₁(ω,k),…,X_M(ω,k)]は式（１）で与えられる。Hはエルミート転置を表す。なお、第kフレームの再生信号X^→(ω,k)＝[X₁(ω,k),…,X_M(ω,k)]はMチャネルの時間領域信号に変換され、これらMチャネルの時間領域信号はそれぞれチャネルに対応するスピーカで再生される（詳細は後述する）。スピーカの個数はMである。

フィルタW^→(ω,θ_s,D_h)の設計法としては種々あるが、ここでは最小分散無歪応答法（MVDR method;minimum variance distortion response method）に拠る場合を説明する。最小分散無歪応答法では、フィルタW^→(ω,θ_s,D_h)は、式（３）の拘束条件の下、空間相関行列Q(ω)を用いて方向θ_s以外の方向への音声（以下、「方向θ_s以外の方向への音声」を「漏れ音声」とも呼ぶ）のパワーが周波数ωで最小となるように設計される（式（２）参照。ここでは距離D_hを固定して考えているので、空間相関行列Q(ω)をQ(ω,D_h)と明記していることに留意すること）。a^→(ω,θ_s,D_h)＝[a₁(ω,θ_s,D_h),…,a_M(ω,θ_s,D_h)]^Tは、スピーカアレーの中心から見て(方向θ_s,距離D_h)の位置（以下、特に断りの無い限り「位置(θ_s,D_h)」と呼称する）に受聴位置が在るとして、当該受聴位置とM本のスピーカとの間の周波数ωでの伝達特性である。Tは転置を表す。換言すれば、a^→(ω,θ_s,D_h)＝[a₁(ω,θ_s,D_h),…,a_M(ω,θ_s,D_h)]^Tは、スピーカアレーに含まれる各スピーカから位置(θ_s,D_h)への音声の周波数ωでの伝達特性である。空間相関行列Q(ω)は、M個のマイクロホンで構成されたマイクロホンアレー（好ましくは、スピーカアレーに含まるスピーカをそれぞれマイクロホンに置換した構成のマイクロホンアレー）によって観測して得られた収音信号を周波数領域に変換して得られる周波数領域信号を用いて表現することもできるが、伝達特性を用いて表現することもできる。以下、しばらくの間、空間相関行列Q(ω)が伝達特性を用いて表現される場合を説明する。

式（２）の最適解であるフィルタW^→(ω,θ_s,D_h)は式（４）で与えられることが知られている。
（参考文献１）Simon Haykin著、鈴木博他訳、「適応フィルタ理論」、初版、株式会社科学技術出版、2001．pp.66-73,248-255

空間相関行列Q(ω,D_h)の逆行列が式（４）に含まれることから察せられるように、空間相関行列Q(ω,D_h)の構造は鋭い指向性を実現する上で重要であることがわかる。また、式（２）から、漏れ音声のパワーは空間相関行列Q(ω,D_h)の構造に依存することもわかる。

漏れ音声の進行方向（伝搬方向）のインデックスpが属する集合を{1,2,…,P-1}とする。方向θ_sのインデックスsは集合{1,2,…,P-1}に属さないとする。このとき、空間相関行列Q(ω,D_h)は式（５ａ）で与えられる。狭指向性を実現するフィルタを作る観点から、Pはある程度大きい値であることが好ましいが、P≦Mを満たす整数であるとする。なお、ここでは発明の原理を分かり易く説明する観点から方向θ_sがあたかも特定の方向の如く説明しているが（それ故、方向θ_s以外の方向を「漏れ音声」の方向としている）、後述の実施形態で明らかになるように、実際には、方向θ_sは音声再生の対象となりえる任意の方向であり、このため方向θ_sになりえる方向として一般的に複数の方向が想定される。このような観点からすると、方向θ_sと漏れ音声の方向との区別は凡そ主観的なものであり、再生音声か漏れ音声かの区別なく音声の進行方向として想定される複数の方向としてP個の異なる方向を予め決めておき、P個の方向のうち選択された一つの方向が音声再生の対象となる位置（受聴位置）に対応する方向であり、それ以外の方向が漏れ音声の方向であると理解することがより正確である。そこで、集合{1,2,…,P-1}と集合{s}との和集合をΦとすると、空間相関行列Q(ω,D_h)は、スピーカアレーの中心からの距離がD_hであって音声の進行方向として想定される複数の方向に含まれる各方向θ_φに対応する各位置への各スピーカからの音声の伝達特性a^→(ω,θ_φ,D_h)＝[a₁(ω,θ_φ,D_h),…,a_M(ω,θ_φ,D_h)]^T（φ∈Φ）によって表される空間相関行列であり、式（５ｂ）で表される。なお、|Φ|=Pである。|Φ|は集合Φの要素数を表す。

ここで、方向θ_sへの音声の伝達特性a^→(ω,θ_s,D_h)と、方向p∈{1,2,…,P-1}への音声の伝達特性a^→(ω,θ_p,D_h)=[a₁(ω,θ_p,D_h),…,a_M(ω,θ_p,D_h)]^Tがお互いに直交すると仮定する。つまり、式（６）で表される条件を満たすP個の直交基底系が存在すると仮定する。記号⊥は直交性を表す。A^→⊥B^→である場合、ベクトルA^→とベクトルB^→の内積値はゼロである。ここではP≦Mを満たすとする。なお、式（１１）で表される条件を緩和し、近似的に直交基底系と見なせるP個の基底系が存在すると仮定できるような場合には、PはM程度、あるいはM以上のある程度大きい値であることが好ましい。

このとき、空間相関行列Q(ω,D_h)は式（７）のように展開できる。式（７）は、直交性を満たすP個の伝達特性で構成された行列V(ω,D_h)=[a^→(ω,θ_s,D_h),a^→(ω,θ₁,D_h),…,a^→(ω,θ_P-1,D_h)]^Tと単位行列Λ(ω,D_h)によって空間相関行列Q(ω,D_h)を分解できることを意味している。ρは空間相関行列Q(ω,D_h)による式（６）を満たす伝達特性a^→(ω,θ_φ,D_h)の固有値であり実数である。

このとき、空間相関行列Q(ω,D_h)の逆行列は式（８）で与えられる。

式（８）を式（２）に代入すると、漏れ音声のパワーが最小となることがわかる。漏れ音声のパワーが最小となれば方向θ_sに対する指向性が実現する。よって、異なる方向の伝達特性の間に直交性が成り立っていることは、方向θ_sに対する指向性を実現する上で、重要な条件となる。

以下、従来技術において方向θ_sに対して鋭い指向性を実現することが困難な理由について考察する。

従来技術では、伝達特性が直接音のみで構成されると仮定してフィルタの設計を行っていた。現実にはスピーカから発せられた音声が壁や天井等で反射するため、反射音が存在するが、反射音は指向性を悪化させる要因と考えて反射音の存在を無視していたのである。線形スピーカアレーから音声が平面波として伝搬すると仮定し、方向θへの直接音のみのステアリングベクトルをh^→ _d(ω,θ)=[h_d1(ω,θ),…,h_dM(ω,θ)]^Tとすると、従来では、伝達特性a^→ _conv(ω,θ)=[a₁(ω,θ),…,a_M(ω,θ)]^Tをa^→ _conv(ω,θ)=h^→ _d(ω,θ)としていた（音波を平面波と考えるのでステアリングベクトルは距離Dに依存しない）。なお、ステアリングベクトルは、スピーカアレーの中心から見て方向θの音波について、基準点に対する各スピーカの周波数ωでの位相応答特性を並べた複素ベクトルである。

以下、しばらくの間、線形スピーカアレーから音声が平面波として放射されると仮定する。直接音のステアリングベクトルh^→ _d(ω,θ)を構成するm番目の要素h_dm(ω,θ)が例えば式（９ｃ）で与えられるとする。uは隣り合うスピーカ間の距離を表す。ｊは虚数単位である。この場合、基準点は線形スピーカアレーの全長の半分の位置（線形スピーカアレーの中心）である。方向θは線形スピーカアレーの中心から見て直接音の進行方向と線形スピーカアレーに含まれるスピーカの配列方向とがなす角度として定義した（図５参照）。なお、ステアリングベクトルの表し方は種々あり、例えば、基準点を線形スピーカアレーの一端にあるスピーカの位置とすれば、直接音のステアリングベクトルh^→ _d(ω,θ)を構成するm番目の要素h_dm(ω,θ)は例えば式（９ｄ）で与えられる。以下、直接音のステアリングベクトルh^→ _d(ω,θ)を構成するm番目の要素h_dm(ω,θ)は式（９ｃ）で与えられるとして説明する。

方向θの伝達特性と方向θ_sの伝達特性との内積値γ_conv(ω,θ)は式（１０）で表される。なお、θ≠θ_sとする。

以後、γ_conv(ω,θ)をコヒーレンスと呼称する。コヒーレンスγ_conv(ω,θ)が０となる方向θは式（１１）で与えられる。ｑは０を除く任意の整数である。また、０＜θ＜π／２であるから、ｑの範囲は周波数帯域ごとに制限されることになる。

式（１１）にて、変更可能なパラメータはスピーカアレーのサイズに関わるパラメータ（Mとu）のみであるから、方向の差（角度差）|θ-θ_s|が小さい場合には、スピーカアレーのサイズに関わるパラメータを変更することなくコヒーレンスγ_conv(ω,θ)を小さくすることは困難である。この場合、漏れ音声のパワーは十分に小さくならず、図１（ａ）に模式的に示すように、方向θ_sに対して広いビーム幅を持った指向性となってしまう。

他方、本発明は、このような考察に基づき、方向θ_sに対して鋭い指向性を持つためのフィルタ設計には、方向の差（角度差）|θ-θ_s|が小さい場合でもコヒーレンスを十分に小さくできるようにすることが重要であるとの知見に基づき、従来技術と異なり反射音を積極的に考慮することを特徴とする。

ここで「双対音」を定義する。（１）スピーカアレーから放射された音声であって、（２）当該音声が反射物で反射した反射音の進行方向に受聴位置が存在する、という条件を満たす音声を受聴位置への「双対音」と呼ぶ。

音波を平面波と仮定すると、或る方向θには、スピーカアレーの各スピーカからの音声であって何にも反射せずに進む音声（直接音）と、双対音が反射物３００で反射した反射音との二種類の平面波が向かうことになる。反射音（あるいは双対音）の数をΞとする。Ξは１以上の予め定められた整数である。このとき、伝達特性a^→(ω,θ)＝[a₁(ω,θ),…,a_M(ω,θ)]^Tは、スピーカアレーから方向θへの直接音の伝達特性と当該直接音に対応する一つ以上の双対音の各伝達特性との和、具体的には、直接音とξ番目（1≦ξ≦Ξ）の反射音との時間差をτ_ξ(θ)とし、α_ξ（1≦ξ≦Ξ）を反射による音の減衰を考慮するための係数とすると、式（１２ａ）のように、直接音のステアリングベクトルと、反射による音の減衰および反射音の直接音に対する時間差が補正されたΞ個の双対音のステアリングベクトルの和で表現できる。h^→ _rξ(ω,θ)=[h_r1ξ(ω,θ),…,h_rMξ(ω,θ)]^Tは方向θへの直接音に対応する双対音のステアリングベクトルを表す。α_ξ（1≦ξ≦Ξ）は、通常、α_ξ≦1（1≦ξ≦Ξ）である。各反射音について、スピーカアレーからの音声（双対音）が反射物で反射する回数が１回であるならば、α_ξ（1≦ξ≦Ξ）は、ξ番目の双対音が反射した物体の音の反射率を表していると考えて差し支えない。

Ｍ個のスピーカで構成されるスピーカアレーについて一つ以上の反射音が存在することが望まれるので、一つ以上の反射物が存在することが好ましい。このような観点からすると、目的方向に受聴位置が在るとして、当該受聴位置とスピーカアレーと一つ以上の反射物との位置関係は、スピーカアレーからの音声（双対音）が少なくとも一つの反射物で反射して受聴位置に届くように、各反射物が配置されていることが好ましい。各反射物の形状は、２次元形状（例えば平板）または３次元形状（例えばパラボラ形状）である。また、各反射物の大きさはスピーカアレーと同等かそれ以上（１〜２倍程度）の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射物の反射率α_ξ（1≦ξ≦Ξ）は少なくとも０よりも大きく、さらに言えば、受聴位置に届く反射音の振幅が直接音の振幅の例えば0.2倍以上であることが望ましく、例えば各反射物は剛性を有する固体とされる。反射物は移動可能な物体（例えば反射板）であっても移動不能な物体（床や壁や天井）であってもよい。なお、移動不能な物体を反射物として設定するとスピーカアレーの設置位置の変更などに伴って、双対音のステアリングベクトルの変更を要することとなり（後述する関数Ψ(θ)やΨ_ξ(θ)を参照のこと）、ひいてはフィルタ計算のやり直し（再設定）が余儀なくされる。そこで、環境変化に対して頑健であるためには、各反射物はスピーカアレーの従物であることが好ましい（この場合、想定されるΞ個の反射音は各反射物によるものであると考えることになる）。ここで「スピーカアレーの従物」とは、「スピーカアレーに対する配置関係（幾何学的関係）を維持したままスピーカアレーの位置や向きなどの変更に従うことができる有体物」のことである。単純な例として、スピーカアレーに各反射物が固定されている構成が挙げられる。

以下、本発明の利点を具体的に説明する観点から、Ξ=1とし、双対音の反射回数は１回であって、スピーカアレーの中心からLメートル離れた位置に一つの反射物が存在すると仮定する。反射物は厚みのある剛体とする。この場合、Ξ=1であるからこれを表す添え字を略することとして、式（１２ａ）は式（１２ｂ）のように表すことができる。

双対音のステアリングベクトルh^→ _r(ω,θ)=[h_r1(ω,θ),…,h_rM(ω,θ)]^Tのm番目の要素は、直接音のステアリングベクトルの表し方と同様に（式（９ｃ）参照）、式（１３ａ）で表される。関数Ψ(θ)はスピーカアレーの中心から見た双対音の進行方向を出力する。なお、直接音のステアリングベクトルを式（９ｄ）で表す場合には、双対音のステアリングベクトルh^→ _r(ω,θ)=[h_r1(ω,θ),…,h_rM(ω,θ)]^Tのm番目の要素は式（１３ｂ）で表される。また、Ξ≧２ならば、ξ番目（1≦ξ≦Ξ）のステアリングベクトルh^→ _rξ(ω,θ)=[h_r1ξ(ω,θ),…,h_rMξ(ω,θ)]^Tのm番目の要素は、式（１３ｃ）や式（１３ｄ）で表される。関数Ψ_ξ(θ)はξ番目（1≦ξ≦Ξ）の双対音の進行方向を出力する。

反射物の位置は適宜に設定可能であるから、双対音の進行方向は変更可能なパラメータとして扱うことができる。

平板状の反射物がスピーカアレーの近傍にある（距離Lがスピーカアレーのサイズに比して極端に大きくない）と仮定すると、コヒーレンスγ(ω,θ)は式（１４）で表される。なお、θ≠θ_sとする。

式（１４）から、式（１１）の従来のコヒーレンスγ_conv(ω,θ)よりも式（１４）のコヒーレンスγ(ω,θ)の方が小さくなる可能性があることがわかる。反射物の置き方によって変更できるパラメータ（Ψ(θ)やL）が式（１４）の第２〜４項目の中に存在するので第１項目のh^→ _d ^H(ω,θ)h^→ _d(ω,θ)を除去できる可能性がある。

例えば、線形スピーカアレーに対して、スピーカの配列方向が反射板の法線となるように平板の反射板を配置すると、関数Ψ(θ)についてΨ(θ)=π-θが成立し、直接音と反射音との時間差τ(θ)について式（１５）が成立するので、式（１４）を構成する要素に式（１６）（１７）の各条件が生成される。記号＊は複素共役を表す演算子である。

h^→ _d ^H(ω,θ)h^→ _r(ω,θ)の絶対値はh^→ _d ^H(ω,θ)h^→ _d(ω,θ)よりも十分に小さいので、式（１４）の第２項、第３項を無視すると、コヒーレンスγ(ω,θ)は式（１８）のように近似できる。

仮にh^→ _d ^H(ω,θ)h^→ _d(ω,θ)≠0であるとしても、近似コヒーレンスγ~(ω,θ)は式（１９）の極小解θを持つ。ｑは任意の正整数である。また、ｑの範囲は周波数帯域ごとに制限される。

つまり、式（１１）で与えられる方向だけではなく、式（１９）で与えられる方向でもコヒーレンスを抑圧できる。コヒーレンスを抑圧できれば、漏れ音声のパワーをより小さくできるので、図１（ｂ）に模式的に示すように、鋭い指向性の実現が可能になる。

なお、図１では本発明の原理に拠る場合と従来技術に拠る場合の指向性の違いを模式的に示したが、図２に、式（１１）で与えられるθと式（１９）で与えられるθの違いを具体的に示す。ω=2π×1000[rad/s]，L=0.70[m]，θ_s=π/4[rad]である。図２では両者の比較のために正規化されたコヒーレンスの方向依存性を示してあり、記号○で示された方向が式（１１）で与えられるθであり、記号＋で示された方向が式（１９）で与えられるθである。図２から明らかなように、従来技術に拠るとθ_s=π/4[rad]に対してコヒーレンスがゼロとなるθは記号○で示された方向だけであるが、本発明の原理に拠るとθ_s=π/4[rad]に対してコヒーレンスがゼロとなるθは記号＋で示される多数の方向に存在し、特に、記号○で示された方向よりもθ_s=π/4[rad]にはるかに近い方向に記号＋で示された方向が存在するため、従来技術に比べて鋭い指向性が実現されることが理解できる。

これまで本発明の原理を分かりやすく説明する観点から音波が平面波として進行すると仮定してきたが、上述の説明から明らかなように、本発明の特徴の要点は、伝達特性a^→(ω,θ,D)＝[a₁(ω,θ,D),…,a_M(ω,θ,D)]^Tを、例えば式（１２ａ）のように、直接音のステアリングベクトルとΞ個の双対音のステアリングベクトルの和で表現することにある。従って、音波が平面波として進行する場合に限定されず球面波として進行する場合にも従来よりも狭指向性の音声再生が可能であることが理解される。

音波が球面波として進行する場合についての伝達特性a^→(ω,θ,D)を説明する。この場合、スピーカアレーの各スピーカからの音声であって何にも反射せずに進む音声（直接音）と、双対音が反射物３００で反射した反射音との二種類の球面波が位置(θ,D)に向かうことになる。反射音（あるいは双対音）の数をΞとする。このとき、伝達特性a^→(ω,θ,D)＝[a₁(ω,θ,D),…,a_M(ω,θ,D)]^Tは、スピーカアレーから位置(θ,D)への直接音の伝達特性と当該直接音に対応する一つ以上の双対音の各伝達特性との和、具体的には、直接音とξ番目（1≦ξ≦Ξ）の反射音との時間差をτ_ξ(θ)とし、α_ξ（1≦ξ≦Ξ）を反射による音の減衰を考慮するための係数とすると、式（２０）のように、直接音のステアリングベクトルと、反射による音の減衰および反射音の直接音に対する時間差が補正されたΞ個の双対音のステアリングベクトルの和で表現できる。h^→ _d(ω,θ,D_h)=[h_d1(ω,θ,D_h),…,h_dM(ω,θ,D_h)]^Tは位置(θ_s,D)への音声の直接音のステアリングベクトルを表す。h^→ _rξ(ω,θ)=[h_r1ξ(ω,θ),…,h_rMξ(ω,θ)]^Tは位置(θ,D)への直接音に対応する双対音のステアリングベクトルを表す。ここで「ステアリングベクトル」という呼称について注意を加えておく。一般的に、「ステアリングベクトル」は「方向ベクトル」とも呼ばれるように「方向」に依存する複素ベクトルを表し、この観点から、位置(θ_s,D)に依存する複素ベクトルの呼称としては例えば「拡張されたステアリングベクトル」と呼ぶほうがより正確である。しかし、本明細書では、表現の簡略化のため、位置(θ_s,D)に依存する複素ベクトルの呼称としても単に「ステアリングベクトル」を用いることにする。α_ξ（1≦ξ≦Ξ）は、通常、α_ξ≦1（1≦ξ≦Ξ）である。各反射音について、スピーカアレーからの音声（双対音）が反射物で反射する回数が１回であるならば、α_ξ（1≦ξ≦Ξ）は、ξ番目の双対音が反射した物体の音の反射率を表していると考えて差し支えない。

式（２０）において、直接音のステアリングベクトルh^→ _d(ω,θ,D_h)を構成するm番目の要素h_dm(ω,θ,D_h)は例えば式（２０ａ）で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を表す。ｊは虚数単位である。適宜に設定した空間座標系において、v^→ _θ,D ^(d)は位置(θ,D)の位置ベクトルを、u^→ _mはm番目のスピーカの位置ベクトルを表す。記号‖・‖はノルムを表す。f(‖v^→ _θ,D ^(d)-u^→ _m‖)は音波の距離減衰を表す関数である。例えばf(‖v^→ _θ,D ^(d)-u^→ _m‖)=1/‖v^→ _θ,D ^(d)-u^→ _m‖であり、この場合、式（２０ａ）は式（２０ｂ）で表される。

式（２０）において、双対音のステアリングベクトルh^→ _rξ(ω,θ,D)=[h_r1ξ(ω,θ,D),…,h_rMξ(ω,θ,D)]^Tのm番目の要素h_rmξ(ω,θ,D)は、直接音のステアリングベクトルの表し方と同様に（式（２０ａ）参照）、式（２１ａ）で表される。mは1≦m≦Mを満たす各整数である。cは音速を表す。ｊは虚数単位である。上記空間座標系において、v^→ _θ,D ^(ξ)は位置(θ,D)がξ番目の反射物の反射面で鏡像対象に移された位置の位置ベクトルを、u^→ _mはm番目のスピーカの位置ベクトルを表す。記号‖・‖はノルムを表す。f(‖v^→ _θ,D ^(ξ)-u^→ _m‖)は音波の距離減衰を表す関数である。例えばf(‖v^→ _θ,D ^(ξ)-u^→ _m‖)=1/‖v^→ _θ,D ^(ξ)-u^→ _m‖であり、この場合、式（２１ａ）は式（２１ｂ）で表される。

なお、ξ番目の時間差τ_ξ(θ,D)と位置ベクトルv^→ _θ,D ^(ξ)は、位置(θ,D)とスピーカアレーとξ番目の反射物との位置関係が決まると、その位置関係に基づいて理論的に計算可能である。

これまでは、音声のスポット再生の要の一つとして、距離Dを固定して主に方向に関する狭指向性の観点から説明してきたが、ここでは、そのもう一つの要である、スピーカアレーからの距離に応じて再生される音声の音圧を制御可能であることを説明する。本発明は従来技術と異なり反射音を積極的に考慮することによって、距離別の音声再生を可能としている。以下、このことを二つの受聴位置を例に挙げて説明する。図６（ａ）に示すように、スピーカアレーから見て距離が異なるがほぼ同じ方向に在る二つの受聴位置AとBそれぞれの近傍で、両者への直接音のみに基づいて音声をスポット再生することは難しい。この理由は、受聴位置Aの位置(θ_[A],D_[A])に対応する直接音のステアリングベクトルh^→ _d(ω,θ_[A],D_[A])に現れる減衰関数の値f(‖v^→ _θ[A],D[A] ^(d)-u^→ _m‖)と受聴位置Bの位置(θ_[B],D_[B])に対応する直接音のステアリングベクトルh^→ _d(ω,θ_[B],D_[B])に現れる減衰関数の値f(‖v^→ _θ[B],D[B] ^(d)-u^→ _m‖)との間には、θ_[A]≒θ_[B]、D_[A]≠D_[B]に注意すると、距離に応じた差異が認められるが、現実には、音源信号の大きさ（音量）と減衰関数の値とを区別できないためである。つまり、従来技術の如くa^→ _conv(ω,θ,D)=h^→ _d(ω,θ,D)とするならば、直接音の伝達特性はほぼ同じ方向に在る受聴位置の距離に関する識別力として十分でなく、式（４）、式（５ａ）、式（５ｂ）を参照して分かるように距離別に音声を再生可能なフィルタの設計が困難になるのである。

他方、本発明では積極的に反射音を考慮するところ、図６（ｂ）に示すように、ξ番目の双対音に対する仮想受聴位置A(ξ),B(ξ)は、スピーカアレーの立場から恰も、受聴位置A,Bの位置がξ番目の反射物３００の反射面で鏡像対象に移された位置に存在することになる。仮想受聴位置A(ξ)へのξ番目の双対音と仮想受聴位置B(ξ)へのξ番目の双対音との間では、各仮想受聴位置A(ξ),B(ξ)の位置ベクトルv^→ _{θ[A(ξ)],D[A(ξ)]} ^(ξ)とv^→ _{θ[B(ξ)],D[B(ξ)]} ^(ξ)、各時間差τ_ξ(θ_[A],D_[A])とτ_ξ(θ_[B],D_[B])について、大きな差異がある。従って、位置(θ_[A],D_[A])と位置(θ_[B],D_[B])に対応する伝達特性a^→(ω,θ_[A],D_[A])とa^→(ω,θ_[B],D_[B])は式（２２ａ）と式（２２ｂ）で表され、式（２２ａ）と式（２２ｂ）のそれぞれの第２項の存在によって、θ_[A]≒θ_[B]であっても、異なる位置に対応する伝達特性間には有意な差分が生じることになる。この伝達特性間の差分をビームフォーミング法で再現することによって、受聴位置への音声の距離別音声再生が可能となるのである。

これまでは、狭指向性の実現を説明するために、距離D_hを固定して考えてきた。このため、空間相関行列Q(ω)を式（５ａ）や式（５ｂ）で表した。しかし、距離D_δ（δ=1,2,…,G）ごとのMチャネルの伝達特性の相互相関も考慮することによって音場の情報量が増え、より精度の良いフィルタを与える空間相関行列を構成できる。この空間相関行列Q(ω)は式（５ｃ）で表される。方向θ_φのインデックスφが属する集合をΦ（|Φ｜=P）、距離D_δのインデックスδが属する集合をΔ（|Δ｜=G）とする。

このとき、式（５ｃ）で表される空間相関行列Q(ω)を用いると、最小分散無歪応答法によるフィルタW^→(ω,θ_s,D_h)は式（４）に替えて式（４ａ）で表される。

ところで、既述のとおり、本発明の特徴の要点は、伝達特性a^→(ω,θ,D)＝[a₁(ω,θ,D),…,a_M(ω,θ,D)]^Tを、直接音のステアリングベクトルとΞ個の双対音のステアリングベクトルの和で表現することにある。従って、フィルタの設計コンセプト自体に影響を与えないので、最小分散無歪応答法以外の手法によってフィルタW^→(ω,θ_s,D_h)を設計することができる。

上述の最小分散無歪応答法以外の手法として、<１>SN比最大化規準によるフィルタ設計法、<２>パワーインバージョン(Power Inversion)に基づくフィルタ設計法、<３>一つ以上の抑圧点（漏れ音声のゲインが抑圧される方向）を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法、<４>遅延合成（Delay-and-Sum Beam Forming）法によるフィルタ設計法、<５>最尤法によるフィルタ設計法、<６>AMNOR（Adaptive Microphone-array for noise reduction）法によるフィルタ設計法を説明する。<１>SN比最大化規準によるフィルタ設計法と<２>パワーインバージョンに基づくフィルタ設計法については参考文献２を参照のこと。<３>一つ以上の抑圧点（漏れ音声のゲインが抑圧される方向）を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法については参考文献３を参照のこと。<６>AMNOR（Adaptive Microphone-array for noise reduction）法によるフィルタ設計法については参考文献４を参照のこと。
（参考文献２）菊間信良著、「アダプティブアンテナ技術」、第１版、株式会社オーム社、２００３年、pp.35-90
（参考文献３）浅野太著、「日本音響学会編音響テクノシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-」、初版、株式会社コロナ社、pp.88-89, 259-261
（参考文献４）金田豊著、「適応形雑音抑圧マイクロホンアレー（AMNOR）の指向特性」、日本音響学会誌44巻1号（1988）、pp.23-30

<１>SN比最大化規準によるフィルタ設計法
SN比最大化規準によるフィルタ設計法では、位置(θ_s,D_h)でのSN比（SNR）を最大化する規準でフィルタW^→(ω,θ_s,D_h)を決定する。位置(θ_s,D_h)への音声の空間相関行列をR_ss(ω)、位置(θ_s,D_h)以外の位置への音声の空間相関行列をR_nn(ω)とする。このとき、SNRは式（２３）で表される。なお、R_ss(ω)は式（２４）、R_nn(ω)は式（２５）で表される。伝達特性a^→(ω,θ_s,D_h)＝[a₁(ω,θ_s,D_h),…,a_M(ω,θ_s,D_h)]^Tは例えば式（２０）で表される（正確には、式（２０）のθをθ_s、DをD_hとしたものである）。式（２５）で、方向θ_φのインデックスφが属する集合をΦ（|Φ｜=P）、距離D_δのインデックスδが属する集合をΔ（|Δ｜=G）とする。

式（２３）のSNRを最大にするフィルタW^→(ω,θ_s,D_h)は、フィルタW^→(ω,θ_s,D_h)に関する勾配をゼロとすること、つまり式（２６）によって求めることができる。

これにより、式（２３）のSNRを最大にするフィルタW^→(ω,θ_s,D_h)は式（２７）で与えられる。

式（２７）には位置(θ_s,D_h)以外の位置への音声の空間相関行列R_nn(ω)の逆行列が含まれているが、R_nn(ω)の逆行列を、（１）位置(θ_s,D_h)への音声と（２）位置(θ_s,D_h)以外の位置への音声とを含む入力全体の空間相関行列R_xx(ω)の逆行列に置換してもよいことが知られている。なお、R_xx(ω)=R_ss(ω)+R_nn(ω)である。つまり、式（２３）のSNRを最大にするフィルタW^→(ω,θ_s,D_h)を式（２８）で求めてもよい。

<２>パワーインバージョンに基づくフィルタ設計法
パワーインバージョンに基づくフィルタ設計法では、一つのスピーカに対するフィルタ係数を一定値に固定した状態でビームフォーマの平均出力パワーを最小化する基準でフィルタW^→(ω,θ_s,D_h)を決定する。ここでは、一例として、M個のスピーカのうち1番目のスピーカに対するフィルタ係数を固定するとして説明する。この設計法では、フィルタW^→(ω,θ_s,D_h)は、式（３０）の拘束条件の下、空間相関行列R_xx(ω)を用いて全位置（受聴位置として想定される全ての位置）への音声のパワーが最小となるように設計される（式（２９）参照）。伝達特性a^→(ω,θ_s,D_h)＝[a₁(ω,θ_s,D_h),…,a_M(ω,θ_s,D_h)]^Tは例えば式（２０）で表される（正確には、式（２０）のθをθ_s、DをD_hとしたものである）。

式（２９）の最適解であるフィルタW^→(ω,θ_s,D_h)は式（３１）で与えられることが知られている（参考文献２参照）。

<３>一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法
上述の最小分散無歪応答法では、式（３）で表されるように位置(θ_s,D_h)への音声の全帯域通過を拘束条件とし、式（２）で表されるビームフォーマの平均出力パワーが最小となる（つまり、位置(θ_s,D_h)以外の位置への音声である漏れ音声のパワーが最小となる）フィルタを求める、という単一拘束条件の下の規準でフィルタW^→(ω,θ_s,D_h)を設計した。この方法によると、全体的に漏れ音声のパワーを抑圧することはできるが、特定の一つまたは複数の位置への音声伝搬を強く抑圧したい場合には必ずしも好適な方法とは言えない。このような場合、既知の一つまたは複数の特定位置（つまり、抑圧点）への音声伝搬を強く抑圧するフィルタが要求される。このため、ここで説明するフィルタ設計法では、（１）位置(θ_s,D_h)への音声の全帯域通過、および（２）既知のB個（Bは１以上の予め定められた整数）の抑圧点(θ_N1,D_G1)，(θ_N2,D_G2)，…，(θ_NB,D_GB)への音声の全帯域抑制、を拘束条件として、式（２）で表されるビームフォーマの平均出力パワーが最小となる（つまり、位置(θ_s,D_h)と各抑圧点とを除く位置への音声のパワーが最小となる）フィルタを求める。既述のように、受聴位置の方向のインデックスφが属する集合を{1,2,…,P}とすると、Nj∈{1,2,…,P}（ただし、j∈{1,2,…,B}），B≦P-1である。また、受聴位置までの距離のインデックスδが属する集合を{1,2,…,G}とすると、Gj∈{1,2,…,G}（ただし、j∈{1,2,…,B}），B≦G-1である。

このとき、a^→(ω,θ_i,D_g)＝[a₁(ω,θ_i,D_g),…,a_M(ω,θ_i,D_g)]^Tを、位置(θ_i,D_g)に受聴位置が在ると仮定した場合の、当該受聴位置とM本のスピーカとの間の周波数ωでの伝達特性、換言すれば、a^→(ω,θ_i,D_g)＝[a₁(ω,θ_i,D_g),…,a_M(ω,θ_i,D_g)]^Tは、スピーカアレーに含まれる各スピーカから位置(θ_i,D_g)への音声の周波数ωでの伝達特性とすると、拘束条件は式（３２）で表される。ただし、インデックスi，gについて、(i,g)∈{(s,h),(N1,G1),(N2,G2),…,(NB,GB)}であり、伝達特性a^→(ω,θ_i,D_g)＝[a₁(ω,θ_i,D_g),…,a_M(ω,θ_i,D_g)]^Tは式（２０）で表される（正確には、式（２０）のθをθ_i、DをD_gとしたものである）。ｆ_i,g(ω)は、位置(θ_i,D_g)に関する周波数ωでの通過特性を表す。

式（３２）を行列形式で表現すると、例えば式（３３）のように表すことができる。ただし、A^→(ω,θ_s,D_h)=[a^→(ω,θ_s,D_h),a^→(ω,θ_N1,D_G1),…,a^→(ω,θ_NB,D_GB)]である。

（１）位置(θ_s,D_h)への音声の全帯域通過、および（２）既知のB個の抑圧点(θ_N1,D_G1)，(θ_N2,D_G2)，…，(θ_NB,D_GB)への音声の全帯域抑制、という拘束条件を考慮すると、理想的には、ｆ_s,h(ω)=1.0、ｆ_i,g(ω)=0.0（(i,g)∈{(N1,G1),(N2,G2),…,(NB,GB)}）とされるべきである。これは、位置(θ_s,D_h)の音声の全帯域完全通過と、既知のB個の抑圧点(θ_N1,D_G1)，(θ_N2,D_G2)，…，(θ_NB,D_GB)の音声の全帯域完全阻止を表している。しかし、現実には全帯域完全通過や全帯域完全阻止という制御が難しい場合もある。このような場合には、ｆ_s,h(ω)の絶対値を1.0に近い値、ｆ_i,g(ω)（(i,g)∈{(N1,G1),(N2,G2),…,(NB,GB)}）の絶対値を0.0に近い値に設定すればよい。もちろん、ｆ_{i,g_i}(ω)とｆ_{j,g_j}(ω)（i≠j、i，j∈{N1,N2,…,NB}）は等しくても異なってもよい。

ここで説明したフィルタ設計法によると、拘束条件を表す式（３３）の下での式（２）の最適解であるフィルタW^→(ω,θ_s,D_h)は式（３４）で与えられる（参考文献３参照）。ただし、空間相関行列Q(ω)として式（５ｃ）で表されるものを用いたが、式（５ａ）ないし式（５ｂ）で表される空間相関行列を用いてもよい。

<４>遅延合成法によるフィルタ設計法
遅延合成法によると、直接音や反射音が平面波伝搬すると仮定すると、フィルタW^→(ω,θ_s,D_h)は式（３５）で与えられる。つまり、フィルタW^→(ω,θ_s,D_h)は伝達特性a^→(ω,θ_s,D_h)を正規化して得られる。伝達特性a^→(ω,θ_s,D_h)＝[a₁(ω,θ_s,D_h),…,a_M(ω,θ_s,D_h)]^Tは式（２０）で表される（正確には、式（２０）のθをθ_s、DをD_hとしたものである）。この設計法によると、フィルタ精度は必ずしも良好とは言えない場合があるが、計算量が少なくて済む。

<５>最尤法によるフィルタ設計法
上述の最小分散無歪応答法において、空間相関行列Q(ω,D_h)内に位置(θ_s,D_h)への音声の空間情報を含めないことによって、漏れ音声を抑圧する自由度が向上し、漏れ音声のパワーをよりいっそう抑圧できる。この場合、ここで説明するフィルタ設計法では、空間相関行列Q(ω,D_h)を、式（５ａ）の右辺第二項、つまり、式（５ｄ）で表す。フィルタW^→(ω,θ_s,D_h)は式（４）や式（３４）で与えられる。このとき、式（４）や式（３４）に含まれる空間相関行列は、式（５ｄ）で表される空間相関行列である。

あるいは、空間相関行列Q(ω)内に位置(θ_s,D_h)への音声の空間情報を含めないようにしてもよい。この場合、ここで説明するフィルタ設計法では、空間相関行列Q(ω)を、式（５ｅ）で表す。フィルタW^→(ω,θ_s,D_h)は式（４）や式（３４）で与えられる。このとき、式（４）や式（３４）に含まれる空間相関行列は、式（５ｅ）で表される空間相関行列である。

<６>AMNOR法によるフィルタ設計法
AMNOR法は、目的方向の音声の劣化量Dとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、目的方向の音声の劣化量Dを或る程度許容し（例えば劣化量Dを或る閾値D＾以下に保つようにする）、［ａ］目的方向の仮想的な信号（以下、仮想目的信号という）に音源とマイクロホンとの間の伝達特性を作用させた信号と［ｂ］（例えば目的方向の音声が無い雑音環境でのM個のマイクロホンによる観測によって得られる）雑音との混合信号を入力としたときのフィルタ出力信号が最小２乗誤差の観点から仮想目的信号を最も良く再現する（つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる）フィルタを求める方式である。

ここで説明するフィルタ設計法は、フィルタの入出力を逆にする以外はAMNOR法と同様に考えることができる。すなわち、位置(θ_s,D_h)への音声の劣化量Dとフィルタ出力信号に残留する漏れ音声のパワーとのトレードオフ関係を踏まえて、位置(θ_s,D_h)への音声の劣化量Dを或る程度許容し（例えば劣化量Dを或る閾値D＾以下に保つようにする）、音源信号の周波数領域信号S(ω,k)を入力としたときのフィルタ出力信号が最小２乗誤差の観点から周波数領域信号S(ω,k)を最も良く再現する（つまり、フィルタ出力信号に含まれる漏れ音声のパワーが最小となる）フィルタを求める。フィルタ出力信号は、［ａ］スピーカアレーに含まれる各スピーカから位置(θ_s,D_h)への音声の周波数ωでの伝達特性を周波数領域信号S(ω,k)に作用させた信号（以下、受聴信号という）と［ｂ］（例えば雑音環境でのM個のマイクロホンによる観測によって得られる）雑音との混合信号である。

ここで説明するフィルタ設計法によると、AMNOR法と同様に、フィルタW^→(ω,θ_s,D_h)は式（３６）で与えられる（参考文献４参照）。なお、R_ss(ω)は式（２４）、R_nn(ω)は式（２５）で表される。伝達特性a^→(ω,θ_s,D_h)＝[a₁(ω,θ_s,D_h),…,a_M(ω,θ_s,D_h)]^Tは式（２０）で表される（正確には、式（２０）のθをθ_s、DをD_hとしたものである）。

P_sは、受聴信号のレベルを重み付けする係数であり、受聴信号レベルと呼称される。受聴信号レベルP_sは、周波数に依存しない定数である。受聴信号レベルP_sは、経験則に基づいて決められてもよく、あるいは、位置(θ_s,D_h)への音声の劣化量Dと閾値D＾との差が任意に定められた誤差範囲内となるように決定されてもよい。後者の例を説明する。周波数ωにおいて、フィルタW^→(ω,θ_s,D_h)の位置(θ_s,D_h)への音声の周波数応答F(ω)は、式（３７）で表される。式（３６）で与えられるフィルタW^→(ω,θ_s,D_h)を用いたときの劣化量DをD(P_s)と表記すると、劣化量D(P_s)は式（３８）で定義される。ω₀は、対象となる周波数ωの上限（通常は、離散的な周波数ωに隣接する高域側周波数である）を表す。劣化量D(P_s)はP_sの単調減少関数である。従って、D(P_s)の単調性によって、P_sを変化させながら劣化量D(P_s)を求めることを繰り返すことで、劣化量D(P_s)と閾値D＾との差が任意に定められた誤差範囲内となる受聴信号レベルP_sを求めることができる。

＜変形例＞
上述の説明では、空間相関行列Q(ω)、R_ss(ω)、R_nn(ω)を、伝達特性を用いて表現した。しかし、上述のように、マイクロホンアレーによって観測して得られたアナログ信号を周波数領域に変換して得られる周波数領域信号を用いて空間相関行列Q(ω)、R_ss(ω)、R_nn(ω)を表現することもできる。以下、空間相関行列Q(ω)について説明するが、R_ss(ω)、R_nn(ω)についても同様である（Q(ω)をR_ss(ω)あるいはR_nn(ω)に読み替えればよい）。なお、空間相関行列R_ss(ω)は位置(θ_s,D_h)への音声のみが存在する環境でのマイクロホンアレー（M個のマイクロホンを含む）による観測によって得られたアナログ信号の周波数領域表現によって得られ、空間相関行列R_nn(ω)は位置(θ_s,D_h)への音声が無い環境（つまり雑音環境）でのマイクロホンアレー（M個のマイクロホンを含む）による観測によって得られたアナログ信号の周波数領域表現によって得られる。

周波数領域信号U^→(ω,k)＝[U₁(ω,k),…,U_M(ω,k)]^Tを用いた空間相関行列Q(ω)は式（３９）で表される。演算子E[・]は、統計的平均操作を表す演算子である。M個のマイクロホンで受音したアナログ信号の離散時系列を確率過程と見たとき、それがいわゆる広義の定常ないし２次定常である場合、演算子E[・]は算術平均値（期待値）演算となる。この場合、空間相関行列Q(ω)は、例えば、メモリ等に蓄積された現在および過去の計ζ個のフレームの周波数領域信号U^→(ω,k-i)（i=0,1,…,ζ-1）を用いて式（４０）で表される。i=0のとき、つまり第kフレームが現在のフレームである。なお、式（３９）ないし式（４０）による空間相関行列Q(ω)はフレーム毎に計算し直してもよいし、あるいは、定期ないし不定期の間隔で計算し直してもよいし、あるいは、後に説明する実施形態の実施の前に計算しておいてもよい（特に、フィルタ設計にR_ss(ω)あるいはR_nn(ω)を用いる場合には、実施形態の実施の前に取得された周波数領域信号を用いて空間相関行列Q(ω)を事前に計算しておくことが好適である）。フレーム毎に空間相関行列Q(ω)を計算し直す場合、空間相関行列Q(ω)は現在と過去のフレームに依存するから、式（３９ａ）や式（４０ａ）のように明示的に空間相関行列をQ(ω,k)と表すことにする。

式（３９ａ）や式（４０ａ）で表される空間相関行列Q(ω,k)を用いるとフィルタW^→(ω,θ_s)も現在と過去のフレームに依存するから、明示的にこれをW^→(ω,θ_s,D_h,k)と表すことにする。このとき、上述の種々のフィルタ設計法で説明した式（４）、式（４ａ）、式（２７）、式（２８）、式（３１）、式（３４）、式（３６）のいずれかで表されるフィルタW^→(ω,θ_s,D_h)は、表記上、式（４ｍ）、式（４ａｍ）、式（２７ｍ）、式（２８ｍ）、式（３１ｍ）、式（３４ｍ）、式（３６ｍ）に修正される。

《実施形態１》
本発明の実施形態１の機能構成および処理フローを図３と図４に示す。この実施形態１の音声スポット再生処理装置１は、ＡＤ変換部２１０、フレーム生成部２２０、周波数領域変換部２３０、フィルタ適用部２４０、時間領域変換部２５０、フィルタ設計部２６０、記憶部２９０を含む。

[ステップＳ１]
予め、フィルタ設計部２６０が音声スポット再生の対象となりえる離散的な位置(θ_i,D_g)ごとに、周波数ごとのフィルタW^→(ω,θ_i,D_g)を計算しておく。音声スポット再生の対象となりえる離散的な方向の総数をI（Iは１以上の予め定められた整数であり、I≦Pを満たす）、離散的な距離の総数をG（Gは１以上の予め定められた整数である）とすると、W^→(ω,θ₁,D₁)，…，W^→(ω,θ_i,D₁)，…，W^→(ω,θ_I,D₁),W^→(ω,θ₁,D₂)，…，W^→(ω,θ_i,D₂)，…，W^→(ω,θ_I,D₂)，…，W^→(ω,θ₁,D_g)，…，W^→(ω,θ_i,D_g)，…，W^→(ω,θ_I,D_g)，…，W^→(ω,θ₁,D_G)，…，W^→(ω,θ_i,D_G)，…，W^→(ω,θ_I,D_G)（1≦i≦I, 1≦g≦G, ω∈Ω; iとgは整数、Ωは周波数ωの集合）を事前に計算しておくのである。

このためには、上述の＜変形例＞で説明した場合を除き、伝達特性a^→(ω,θ_i,D_g)＝[a₁(ω,θ_i,D_g),…,a_M(ω,θ_i,D_g)]^T（1≦i≦I, 1≦g≦G, ω∈Ω）を求める必要があるが、これは、スピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカアレーに対する位置関係、直接音とξ番目（1≦ξ≦Ξ）の反射音との時間差、反射物の音の反射率などの環境情報を基に式（２０）によって具体的に計算できる（正確には、式（２０）のθをθ_i、DをD_gとしたものである）。なお、上述の<３>一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a^→(ω,θ_i,D_g)（1≦i≦I, 1≦g≦G,ω∈Ω）を求める際の位置のインデックス(i,g)は、少なくともB個の抑圧点の方向のインデックス(N1,G1),(N2,G2),…,(NB,GB)の全てを亘ることが望ましい。換言すれば、B個のインデックスN1,N2,…,NBは、1以上I以下のいずれかの異なる整数として設定され、B個のインデックスG1,G2,…,GBは、1以上G以下のいずれかの異なる整数として設定される。

反射音（あるいは双対音）の数Ξは１≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。

ステアリングベクトルの計算には、例えば式（２０ａ）、式（２０ｂ）、式（２１ａ）、式（２１ｂ）を用いることができる。なお、フィルタ設計に用いる伝達特性として、式（２０）に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。

そして、上述の＜変形例＞で説明した場合を除き、伝達特性a^→(ω,θ_i,D_g)を用いて、例えば式（４）、式（４ａ）、式（２７）、式（２８）、式（３１）、式（３４）、式（３５）、式（３６）のいずれかによってW^→(ω,θ_i,D_g)（1≦i≦I, 1≦g≦G）を求める。なお、上述の<５>最尤法によるフィルタ設計法で説明した場合を除き、式（４）または式（４ａ）または式（２８）または式（３１）または式（３４）を用いる場合には空間相関行列Q(ω)（あるいはR_xx(ω)）は式（５ｂ）で計算できる。上述の<５>最尤法によるフィルタ設計法に拠って、式（４）または式（４ａ）または式（２８）または式（３１）または式（３４）を用いる場合には空間相関行列Q(ω)（あるいはR_xx(ω)）は式（５ｄ）あるいは式（５ｅ）で計算できる。式（２７）を用いる場合には空間相関行列R_nn(ω)は式（２５）で計算できる。I×G×|Ω|個のフィルタW^→(ω,θ_i,D_g)（1≦i≦I, 1≦g≦G, ω∈Ω）は記憶部２９０に記憶される。|Ω|は集合Ωの要素数を表す。

[ステップＳ２]
音源２００が音源信号ss(t)を出力する。この実施形態では、音源２００からの音源信号ss(t)はアナログ信号であるとする。ただし、音源信号としてディジタル信号を用いることもできる。

[ステップＳ３]
ＡＤ変換部２１０が、音源信号ss(t)をディジタル信号s(t)へAD変換する。ここでｔは離散時間のインデックスを表す。なお、ディジタル信号が音源信号である場合には、ステップＳ３の処理を行う必要がなく、音源信号をＡＤ変換部２１０の出力信号であるs(t)と見なすことができる。

[ステップＳ４]
フレーム生成部２２０は、ＡＤ変換部２１０が出力したディジタル信号s(t)を入力とし、Nサンプルをバッファに貯めてフレーム単位のディジタル信号s(k)を出力する。kはフレーム番号のインデックスである。s(k)=[s((k-1)N+1),…,s(kN)]である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。

[ステップＳ５]
周波数領域変換部２３０は、各フレームのディジタル信号s(k)を周波数領域の信号S(ω,k)に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号S(ω,k)は、各周波数ω、フレームkごとに出力される。

[ステップＳ６]
フィルタ適用部２４０は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号S(ω,k)に、スポット再生したい位置(θ_s,D_h)に対応するフィルタW^→(ω,θ_s,D_h)を適用して、再生信号X^→(ω,k)＝[X₁(ω,k),…,X_M(ω,k)]^Tを出力する（式（４１）参照）。位置(θ_s,D_h)のインデックスs, hは、s∈{1,…,I}, h∈{1,…,G}であり、フィルタW^→(ω,θ_s,D_h)は記憶部２９０に記憶されているので、例えば、ステップＳ６の処理の都度、フィルタ適用部２４０は、スポット再生したい位置(θ_s,D_h)に対応するフィルタW^→(ω,θ_s,D_h)を記憶部２９０から取得すればよい。方向θ_sのインデックスsが集合{1,…,I}に属さない場合あるいは距離D_hのインデックスhが集合{1,…,G}に属さない場合、つまり、位置(θ_s,D_h)に対応するフィルタW^→(ω,θ_s,D_h)がステップＳ１の処理で計算されていない場合、臨時に位置(θ_s,D_h)に対応するフィルタW^→(ω,θ_s,D_h)をフィルタ設計部２６０に計算させてもよいし、あるいは方向θ_sに近い方向θ_s'や距離D_hに近い距離D_h'に対応するフィルタW^→(ω,θ_s',D_h)やW^→(ω,θ_s,D_h')やW^→(ω,θ_s',D_h')を用いてよい。

[ステップＳ７]
時間領域変換部２５０は、第kフレームの各周波数ω∈Ωの再生信号X^→(ω,k)＝[X₁(ω,k),…,X_M(ω,k)]を時間領域に変換して第kフレームのフレーム単位時間領域信号x^→(k)＝[x₁(k),…,x_M(k)]を得て、さらに、得られたフレーム単位時間領域信号x^→(k)＝[x₁(k),…,x_M(k)]をフレーム番号のインデックスの順番に連結してスポット再生したい位置(θ_s,D_h)に向けて音声が強調された時間領域信号x^→(t)＝[x₁(t),…,x_M(t)]を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップＳ５の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。

[ステップＳ８]
Mチャネルの時間領域信号x₁(t),…,x_M(t)はそれぞれ、スピーカアレーを構成するM個のスピーカ２８０−１，…，２８０−Ｍのうち、チャネルに対応するスピーカで再生される。つまり、ｍ番目(1≦m≦M)のチャネルの時間領域信号x_m(t)はｍ番目のスピーカ２８０−ｍで再生される。

なお、M個のスピーカの並べ方に制限は無い。線形スピーカアレーのように直線状にスピーカを配置するアレー構成でもよいし、２次元または３次元的にM個のスピーカを配置するアレー構成でもよい。また、収音方向として設定できる方向を広くとるためには、各スピーカの指向性は、再生方向である目的方向θ_sになり得る方向に或る程度の音圧で音声を再生可能な指向性を持っていたほうがよい。したがって、無指向性スピーカや単一指向性スピーカといった指向性が比較的緩やかなスピーカが好適である。

ここでは、ステップＳ１の処理で予めフィルタW^→(ω,θ_i,D_g)を計算しておく実施形態１を説明したが、音声スポット再生処理装置１の計算処理能力などに応じて、位置(θ_s,D_h)が定まってからフィルタ設計部２６０が周波数ごとのフィルタW^→(ω,θ_s,D_h)を計算する実施形態を採用することもできる。

《実施形態２》
本発明の実施形態２の機能構成および処理フローを図１３と図１４に示す。この実施形態２の音声スポット再生処理装置２は、ＡＤ変換部２１０、フレーム生成部２２０、周波数領域変換部２３０、フィルタ適用部２４０、時間領域変換部２５０、フィルタ計算部２６１、記憶部２９０、ＡＤ変換部３１０、フレーム生成部３２０、周波数領域変換部３３０を含む。

[ステップＳ１１]
音源２００が音源信号ss(t)を出力する。この実施形態２では、音源２００からの音源信号ss(t)はアナログ信号であるとする。ただし、音源信号としてディジタル信号を用いることもできる。

[ステップＳ１２]
ＡＤ変換部２１０が、音源信号ss(t)をディジタル信号s(t)へAD変換する。ここでｔは離散時間のインデックスを表す。なお、ディジタル信号が音源信号である場合には、ステップＳ１２の処理を行う必要がなく、音源信号をＡＤ変換部２１０の出力信号であるs(t)と見なすことができる。

[ステップＳ１３]
フレーム生成部２２０は、ＡＤ変換部２１０が出力したディジタル信号s(t)を入力とし、Nサンプルをバッファに貯めてフレーム単位のディジタル信号s(k)を出力する。kはフレーム番号のインデックスである。s(k)=[s((k-1)N+1),…,s(kN)]である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。

[ステップＳ１４]
周波数領域変換部２３０は、各フレームのディジタル信号s(k)を周波数領域の信号S(ω,k)に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号S(ω,k)は、各周波数ω、フレームkごとに出力される。

[ステップＳ１５]
フィルタ計算部２６１が、現在の第kフレームで用いられる、位置(θ_s,D_h)に対応する周波数毎のフィルタW^→(ω,θ_s,D_h,k)（ω∈Ω; Ωは周波数ωの集合）を計算する。

このためには、伝達特性a^→(ω,θ_s,D_h)＝[a₁(ω,θ_s,D_h),…,a_M(ω,θ_s,D_h)]^T（ω∈Ω）を用意する必要があるが、これは、スピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカアレーに対する位置関係、直接音とξ番目（1≦ξ≦Ξ）の反射音との時間差、反射物の音の反射率などの環境情報を基に式（２０）によって具体的に計算できる（正確には、式（２０）のθをθ_s、DをD_hとしたものである）。なお、上述の<３>一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a^→(ω,θ_Nj,D_Gj)（1≦j≦B, ω∈Ω）も求める必要があるが、これらはスピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカロホンアレーに対する位置関係、直接音とξ番目（1≦ξ≦Ξ）の反射音との時間差、反射物の音の反射率などの環境情報を基に式（２０）によって具体的に計算できる（正確には、式（２０）のθをθ_Nj、DをD_Gjとしたものである）。

反射音の数Ξは１≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。

そして、フィルタ計算部２６１は、伝達特性a^→(ω,θ_s,D_h)（ω∈Ω）や必要に応じて伝達特性a^→(ω,θ_Nj,D_Gj)（1≦j≦B, ω∈Ω）を用いて、フィルタW^→(ω,θ_s,D_h,k)（ω∈Ω）を、式（４ｍ）、式（４ａｍ）、式（２７ｍ）、式（２８ｍ）、式（３１ｍ）、式（３４ｍ）、式（３６ｍ）のいずれかに従って求める。なお、空間相関行列Q(ω)（あるいはR_xx(ω)）は例えば式（３９ａ）や式（４０ａ）で計算できる。空間相関行列Q(ω)の計算には、記憶部２９０に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X^→(ω,k-i)（i=0,1,…,ζ-1）が用いられる。

周波数領域信号X^→(ω,k)は、下記のようにして記憶部２９０に蓄積される。
マイクロホンアレーを構成するM個のマイクロホン３００−１，…，３００−Ｍを用いて収音する。M個のマイクロホンの並べ方等はスピーカアレーと同じとすることが好ましい。
ＡＤ変換部３１０が、M個のマイクロホン３００−１，…，３００−Ｍで収音されたアナログ信号（収音信号）をディジタル信号x^→(t)＝[x₁(t),…,x_M(t)]へ変換する。ｔは離散時間のインデックスを表す。
フレーム生成部３２０は、ＡＤ変換部３１０が出力したディジタル信号x^→(t)＝[x₁(t),…,x_M(t)]を入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x^→(k)＝[x^→ ₁(k),…,x^→ _M(k)]を出力する。kはフレーム番号のインデックスである。x^→ _m(k)=[x_m((k-1)N+1),…,x_m(kN)]（1≦m≦M）である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
周波数領域変換部３３０は、各フレームのディジタル信号x^→(k)を周波数領域の信号X^→(ω,k)＝[X₁(ω,k),…,X_M(ω,k)]に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X^→(ω,k)は、各周波数ω、フレームkごとに出力され、記憶部２９０に蓄積される。

[ステップＳ１６]
フィルタ適用部２４０は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号S(ω,k)に、再生したい位置(θ_s,D_h)に対応するフィルタW^→(ω,θ_s,D_h,k)を適用して、再生信号X^→(ω,k)＝[X₁(ω,k),…,X_M(ω,k)]を出力する（式（４２）参照）。

[ステップＳ１７]
時間領域変換部２５０は、第kフレームの各周波数ω∈Ωの再生信号X^→(ω,k)＝[X₁(ω,k),…,X_M(ω,k)]を時間領域に変換して第kフレームのフレーム単位時間領域信号x^→(k)＝[x₁(k),…,x_M(k)]を得て、さらに、得られたフレーム単位時間領域信号x^→(k)＝[x₁(k),…,x_M(k)]をフレーム番号のインデックスの順番に連結して位置(θ_s,D_h)に向けて音声が強調された時間領域信号x^→(t)＝[x₁(t),…,x_M(t)]を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップＳ１４の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。

[ステップＳ１８]
Mチャネルの時間領域信号x₁(t),…,x_M(t)はそれぞれ、スピーカアレーを構成するM個のスピーカ２８０−１，…，２８０−Ｍのうち、チャネルに対応するスピーカで再生される。つまり、ｍ番目(1≦m≦M)のチャネルの時間領域信号x_m(t)はｍ番目のスピーカ２８０−ｍで再生される。

本発明の実施形態１（単一拘束条件の最小分散無歪応答法）による音声のスポット再生についての実験結果を説明する。図５に示すように、24本のスピーカを直線的に配置し、この線形スピーカアレーに含まれるスピーカの配列方向が反射板３００の法線となるように反射板３００を配置した。反射板３００の形状に制限はないが、反射面が平面であって、1.0m×1.0mのサイズと適度な厚みと剛性を持つ平板の反射板を用いた。隣り合うスピーカの間隔を4cm、反射板３００の反射率αを0.8とした。受聴位置は方向θ_sを45度、距離D_hを1.13mに設定した。実験結果として、図７（ａ）に反射板３００を設置しなかった場合の最小分散ビームフォーマの指向性(２次元領域)、図７（ｂ）に反射板３００を設置した場合の最小分散ビームフォーマの指向性(２次元領域)を示す。音圧[単位：dB]は濃淡表示されており、白い領域ほど高い音圧で収音できていることを表している。従って、理想的には、方向45度、距離1.13mの位置のみ白くなっており、他の領域が黒に近くなるほど、音声のスポット再生が実現できているといえる。図７（ａ）と図７（ｂ）に示す実験結果の比較から、反射板３００を設置しなかった場合は音声のスポット再生が十分にできておらず、反射板３００を設置した場合は音声のスポット再生ができていることがわかる。

次に、本発明の実施構成の例を図８〜図１２を参照して説明する。これらの例ではスピーカアレーの構成は線形スピーカアレーとして図示されているが、線形スピーカアレーの構成に限定されない。

図８に示す実施構成例では、線形スピーカアレーを構成するM個のスピーカ２８０−１，…，２８０−Ｍは矩形平板状の支持部材４００に固定されており、この状態で各スピーカの拡声孔は支持部材４００の或る一つの平面（以下、開口面と呼ぶ）に配置されているいる（図示の例ではM=13）。なお、各スピーカ２８０−１，…，２８０−Ｍに接続される配線は図示していない。そして、各スピーカ２８０−１，…，２８０−Ｍの配列方向が矩形平板状の反射板３００の法線となるように反射板３００が支持部材４００の端部に固定されている。支持部材４００の開口面は、反射板３００と９０度をなす面である。図８に示す実施構成例では、反射板３００の好ましいとされる性状は既述の反射物の性状と同じであり、支持部材４００の性状については特に限定はなく各スピーカ２８０−１，…，２８０−Ｍをしっかりと固定できる剛性を持っていれば十分である。

図９（ａ）に示す実施構成例では、支持部材４００の端部に軸部４１０が固定されており、反射板３００は軸部４１０に回動自在に取り付けられている。この実施構成例によると、スピーカアレーに対する反射板３００の幾何学的配置を変更することが可能である。

図９（ｂ）に示す実施構成例では、図８に示す実施構成例において、さらに二つの反射板３１０，３２０が追加されている。追加された二つの反射板３１０，３２０の性状は反射板３００の性状と同じでも異なってもよい。また、反射板３１０の性状は反射板３２０の性状と同じでも異なってもよい。以下、反射板３００を固定反射板３００と呼称する。固定反射板３００の端部（支持部材４００に固定されている固定反射板３００の端部とは反対側の端部）に軸部５１０が固定されており、反射板３１０は軸部５１０に回動自在に取り付けられている。また、支持部材４００の端部（固定反射板３００が固定されている支持部材４００の端部とは反対側の端部）に軸部５２０が固定されており、反射板３２０は軸部５２０に回動自在に取り付けられている。以下、反射板３１０，３２０を可動反射板３１０，３２０と呼称する。図９（ｂ）に示す実施構成例によると、例えば固定反射板３００の反射面と可動反射板３１０の反射面が一致するように可動反射板３１０の位置を設定すると、固定反射板３００と可動反射板３１０の組み合わせを、固定反射板３００よりも大きい反射面を持つ反射板として機能させることができる。また、図９（ｂ）に示す実施構成例によると、可動反射板３１０，３２０を適切な位置に設定することによって、例えば図１０に示すように支持部材４００、固定反射板３００、可動反射板３１０，３２０で囲まれた空間内で何度も音声を反射させることができるので、反射音の数Ξを制御することができる。なお、図９（ｂ）に示す実施構成例の場合、支持部材４００は反射物としての役割を果たすことになるので、既述の反射物の性状と同じ性状を持つことが好ましい。

図１１に示す実施構成例は、反射板３００にもスピーカアレー（図示の例では線形スピーカアレー）が設けられていることが図８に示す実施構成例と異なる。図１１に示す実施構成例では、支持部材４００に固定されたM個のスピーカの配列方向と反射板３００に固定されたM’個のスピーカの配列方向が同一平面上にあるが、このような配置構成に限定されない（図示の例ではM’=13）。例えば、支持部材４００に固定されたM個のスピーカの配列方向と直交するような配列方向を持つように反射板３００にM’個のスピーカが固定されていてもよい。図１１に示す実施構成例によると、支持部材４００に設けられたスピーカアレーと反射板３００（反射板３００に設けられたスピーカアレーを使用せず、反射板３００を反射物として使用する）との組み合わせで本発明を実施したり、支持部材４００（支持部材４００に設けられたスピーカアレーを使用せず、支持部材４００を反射物として使用する）と反射板３００に設けられたスピーカアレーとの組み合わせで本発明を実施したりすることができる。

また、図１１に示す実施構成例の拡張実施構成例として、図９（ｂ）に示す実施構成例と同様に、図１１に示す実施構成例においてさらに二つの反射板３１０，３２０を追加した構成としてもよい（図１２参照）。また、図示していないが、可動反射板３１０，３２０の少なくとも一つにスピーカアレーを設けてもよい。可動反射板３１０に設けられるスピーカアレーを構成する各スピーカの拡声孔は、例えば、支持部材４００の開口面と対向可能な可動反射板３１０の平面（開口面）に配置される。可動反射板３２０に設けられるスピーカアレーを構成する各スピーカの拡声孔は、例えば、支持部材４００の開口面と同一平面を形成可能な可動反射板３２０の平面（開口面）に配置される。このような実施構成例であっても図９（ｂ）に示す実施構成例と同様の使用形態が可能である。また、この実施構成例によると、例えば支持部材４００の開口面と可動反射板３２０の開口面が一致するように可動反射板３２０の位置を設定すると、支持部材４００と可動反射板３２０の組み合わせを、支持部材４００に設けられたスピーカアレーよりも大きいスピーカアレーとして機能させることができる。図１２に示す実施構成例においても、可動反射板３１０，３２０の少なくとも一つにスピーカアレーを設けた実施構成例においても、図１０に示す実施構成例と同様の使用形態が可能である。また、図１２に示す実施構成例においても、可動反射板３１０，３２０の少なくとも一つにスピーカアレーを設けた実施構成例においても、例えば、可動反射板３１０，３２０を通常の反射物として用い、支持部材４００に設けられたスピーカアレーと固定反射板３００に設けられたスピーカアレーとを一体のスピーカアレーとして用いる使用形態も可能である。この場合、(M+M’)個のスピーカで構成されたスピーカアレーと二つの反射物を使用する実施構成例と等価となる。

可動反射板３１０にスピーカアレーを設ける場合、可動反射板３１０に設けられるスピーカアレーを構成する各スピーカの拡声孔が、支持部材４００の開口面と対向可能な可動反射板３１０の平面の反対側の平面（開口面）に配置されるように、可動反射板３１０にスピーカアレーを設けてもよい。また、可動反射板３２０にスピーカアレーを設ける場合、可動反射板３２０に設けられるスピーカアレーを構成する各スピーカの拡声孔が、支持部材４００の開口面と同一平面を形成可能な可動反射板３２０の平面の反対側の平面（開口面）に配置されるように、可動反射板３２０にスピーカアレーを設けてもよい。もちろん、可動反射板３１０，３２０の少なくとも一つについて、その両面に開口面とするように当該可動反射板にスピーカアレーを設けてもよい。

［Ａ］スピーカアレーを可動反射板３１０，３２０の少なくとも一つに設けた場合であって、可動反射板３１０の開口面を支持部材４００の開口面と対向可能な平面とした場合ないし可動反射板３２０の開口面を支持部材４００の開口面と同一平面を形成可能な平面とした場合、図１０に示す使用形態では、視線方向に対して可動反射板３１０および/または可動反射板３２０の開口面が見えないように可動反射板３１０および/または可動反射板３２０が配置されることによって視線方向の見かけ上のアレーサイズは小さくなるものの、可動反射板３１０および/または可動反射板３２０に設けられたスピーカアレーを利用することによって、アレーサイズを大きくした場合と同じ効果を得ることができる。

［Ｂ］スピーカアレーを可動反射板３１０，３２０の少なくとも一つに設けた場合であって、可動反射板３１０の開口面を支持部材４００の開口面と対向可能な平面の反対側の平面とした場合ないし可動反射板３２０の開口面を支持部材４００の開口面と同一平面を形成可能な平面の反対側の平面とした場合、図１０に示す使用形態では、視線方向に対して見かけ上のアレーサイズを保ったまま、アレーサイズを大きくした場合と同じ効果を得ることができる。

可動反射板３１０，３２０の少なくとも一つについて、その両面に開口面とするように当該可動反射板にスピーカアレーを設けた場合には、［Ａ］と［Ｂ］の双方の効果を得ることも可能である。

＜応用例＞
以下、本発明である音声スポット再生処理技術が有用なサービス例について述べる。

第１の例として、ディジタルサイネージでの音声再生が挙げられる。本発明によると従来よりも特定方向の狭い範囲のみに音声を提供できるので、周囲に迷惑をかけることなく、当該範囲に居る人にのみ広告を伝えることができる。

第２の例として、ＴＶ会議システム（音声会議システムでもよい）への応用が挙げられる。ＴＶ会議専用の部屋が用意できないような状況の下で会議を行うときに、本発明によると従来よりも特定方向の狭い範囲のみに音声を提供できるので、周囲に迷惑をかけることなく、会議を行うことができる。

＜音声スポット再生処理装置のハードウェア構成例＞
上述の実施形態に関わる音声スポット再生処理装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ＣＰＵ（Central Processing Unit）〔キャッシュメモリなどを備えていてもよい。〕、メモリであるＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音声スポット再生処理装置に、ＣＤ−ＲＯＭなどの記憶媒体を読み書きできる装置（ドライブ）などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

音声スポット再生処理装置の外部記憶装置には、狭い範囲の音声を強調するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。

音声スポット再生処理装置の記憶部には、スポット再生の対象となる位置について式（５ａ）ないし式（５ｂ）で表される空間相関行列を用いて、周波数ごとにフィルタを求めるためのプログラムと、アナログ信号に対してＡＤ変換を行うためのプログラム、フレーム生成処理を行うためのプログラム、フレームごとのディジタル信号を周波数領域の周波数領域信号に変換するためのプログラム、スポット再生の対象となる位置に対応するフィルタを周波数ごとに周波数領域信号に適用して再生信号を得るためのプログラムと、再生信号を時間領域信号に変換するためのプログラムが記憶されている。

音声スポット再生処理装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭに読み込まれて、ＣＰＵで解釈実行・処理される。この結果、ＣＰＵが所定の機能（フィルタ設計部、ＡＤ変換部、フレーム生成部、周波数領域変換部、フィルタ適用部、時間領域変換部）を実現することで音声スポット再生処理が実現される。

＜補記＞
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記実施形態において説明したハードウェアエンティティ（音声スポット再生処理装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Ｍを２以上の整数として、方向と距離で定まる所望の位置（スポット再生位置）に対してＭ個のスピーカで構成されるスピーカアレーで再生されるＭチャネルの時間領域信号ｘを、音源信号が周波数領域に変換された周波数領域信号Ｓに、当該周波数領域信号ＳをＭチャネルの周波数領域信号Ｘに変換するフィルタを周波数ごとに適用して得られた当該Ｍチャネルの周波数領域信号Ｘを時間領域に変換して得る音声スポット再生処理方法であって、
音声のスポット再生位置として想定される一つまたは複数の位置に含まれる各位置（ただし、各位置を識別するための方向をi、距離をgとする）への各スピーカからの音声の伝達特性ａ_i,gを用いて、音声再生の対象となる位置について、上記周波数ごとの上記フィルタを求めるフィルタ設計ステップと、
上記フィルタ設計ステップで求められた上記フィルタを、上記周波数ごとに上記周波数領域信号Ｓに適用して上記Ｍチャネルの周波数領域信号Ｘを得るフィルタ適用ステップと
を有し、
上記スピーカアレーから放射された音声であって当該音声が反射物で反射した反射音の進行方向に受聴位置が存在する音声を双対音として、各上記伝達特性ａ_i,gは、上記方向iと上記距離gで定まる位置への直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される
ことを特徴とする音声スポット再生処理方法。
請求項１に記載の音声スポット再生処理方法において、
各上記伝達特性ａ_i,gは、上記直接音のステアリングベクトルと、反射による音の減衰および上記反射音の上記直接音に対する時間差が補正された一つ以上の上記双対音の各ステアリングベクトルとの和である
ことを特徴とする音声スポット再生処理方法。
請求項１に記載の音声スポット再生処理方法において、
各上記伝達特性ａ_i,gは、実環境下において実測で得られたものである
ことを特徴とする音声スポット再生処理方法。
請求項１から請求項３のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記位置以外への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
請求項１から請求項３のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記位置でのSN比が最大となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
請求項１から請求項３のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、Ｍ個の上記スピーカのうち一つのスピーカに対するフィルタ係数を一定値に固定した状態でスポット再生位置として想定される上記一つまたは複数の位置以外への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
請求項１から請求項３のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、（１）音声再生の対象となる上記位置への音声の全帯域通過、および（２）一つ以上の抑圧点への音声の全帯域抑制、の条件の下、音声再生の対象となる上記位置と各上記抑圧点以外への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
請求項１から請求項３のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記位置i＝s，g＝hの伝達特性ａ_s,hを正規化することによって、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
請求項１から請求項３のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記位置以外の各位置に対応する上記伝達特性ａ_i,gによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
請求項１から請求項３のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記位置への音声の劣化量を所定量以下とする条件の下、音声再生の対象となる上記位置以外への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
請求項１から請求項３のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
請求項１から請求項３のいずれかに記載の音声スポット再生処理方法において、
上記フィルタ設計ステップにおいて、スポット再生位置として想定される一つまたは複数の位置に含まれる各位置に対応する上記伝達特性ａ_i,gによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声スポット再生処理方法。
Ｍを２以上の整数として、方向と距離で定まる所望の位置（スポット再生位置）に対してＭ個のスピーカで構成されるスピーカアレーで再生されるＭチャネルの時間領域信号ｘを、音源信号が周波数領域に変換された周波数領域信号Ｓに、当該周波数領域信号ＳをＭチャネルの周波数領域信号Ｘに変換するフィルタを周波数ごとに適用して得られた当該Ｍチャネルの周波数領域信号Ｘを時間領域に変換して得る音声スポット再生処理装置であって、
音声のスポット再生位置として想定される一つまたは複数の位置に含まれる各位置（ただし、各位置を識別するための方向をi、距離をgとする）への各スピーカからの音声の伝達特性ａ_i,gを用いて、音声再生の対象となる位置について、上記周波数ごとの上記フィルタを求めるフィルタ設計部と、
上記フィルタ設計部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号Ｓに適用して上記Ｍチャネルの周波数領域信号Ｘを得るフィルタ適用部と
を含み、
上記スピーカアレーから放射された音声であって当該音声が反射物で反射した反射音の進行方向に受聴位置が存在する音声を双対音として、各上記伝達特性ａ_i,gは、上記方向iと上記距離gで定まる位置への直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される
ことを特徴とする音声スポット再生処理装置。
請求項１３に記載の音声スポット再生処理装置において、
上記双対音に対して各上記反射音を与える一つ以上の反射物をさらに含む
ことを特徴とする音声スポット再生処理装置。
コンピュータに、請求項１から請求項１２のいずれかに記載の音声スポット再生処理方法の処理を実行させるためのプログラム。