WO2020036058A1

WO2020036058A1 - 信号処理装置および方法、並びにプログラム

Info

Publication number: WO2020036058A1
Application number: PCT/JP2019/029813
Authority: WO
Inventors: 慶一大迫; 祐基光藤; 将文高橋; 由楽池宮
Original assignee: ソニー株式会社
Priority date: 2018-08-13
Filing date: 2019-07-30
Publication date: 2020-02-20
Also published as: JPWO2020036058A1; US20210241746A1; US11462200B2; KR20210043565A; EP3839941A4; CN112513977A; EP3839941A1

Abstract

本技術は、簡単に漏れ音を聞こえにくくすることができるようにする信号処理装置および方法、並びにプログラムに関する。信号処理装置は、スピーカアレイを用いた波面合成により、第１の領域で第１のコンテンツを再生し、第２の領域で第２のコンテンツを再生する場合に、第１の領域と第２の領域との間の領域において聞こえる第１のコンテンツの音および第２のコンテンツの音をマスキングするためのマスキング音を生成するマスキング音生成部を備える。本技術はコンテンツ再生システムに適用することができる。

Description

信号処理装置および方法、並びにプログラム

　本技術は、信号処理装置および方法、並びにプログラムに関し、特に、簡単に漏れ音を聞こえにくくすることができるようにした信号処理装置および方法、並びにプログラムに関する。

　近年、波面合成技術を利用したマルチゾーン再生が知られている。マルチゾーン再生では、複数に区切られたエリア（領域）ごとに再生音圧を任意に変えることで、聞こえる音の空間分割が実現されている。

　このようなマルチゾーン再生を用いれば、例えば美術館の絵画の前の領域でのみ、その絵画についての音声ガイドが聞こえるようにし、それ以外の領域では何も音が聞こえないようにすることができる。

　また、例えば空港や駅などの公共施設において、複数の領域ごとに施設利用者に向けて互いに異なる言語での音声情報の提示を行うことも可能である。

　ところで、マルチゾーン再生においては、受聴者が所定の領域で提示されている音を聞いているときに他の領域の音が漏れ聞こえてくると、受聴者による音情報の取得が著しく困難となってしまうため、対象とする領域内のみで音が聞こえることが重要である。換言すれば、対象とする領域の境界周辺において音が漏れ聞こえないようにすることが求められている。

　そこで、例えば一対のスピーカを、それらのスピーカ間の距離が放射音波の８分の１波長から１波長となるように配置して、それらのスピーカからの音波同士を干渉させることで音を打ち消す技術が提案されている（例えば、特許文献１参照）。

　特許文献１では、スピーカ対の前方に設けたマイクロホンの検知出力に基づいて音を打ち消すために用いるフィルタが調整される。そして、得られたフィルタによりフィルタリング処理した音響信号に基づいてスピーカ対から音波を出力することで、マイクロホンが配置された制御点において音波の干渉による打ち消しが実現される。

　また、センサを用いて予め定められた案内領域内への利用者の移動を認識し、利用者が案内領域内に入ると、所定のフィルタによりフィルタリング処理された音響信号に基づいて案内領域に対応する音声を再生する技術も提案されている（例えば、特許文献２参照）。

　特許文献２では、複数の制御点における観測信号が所望の平面波となるようにフィルタを生成することで、広がりが抑えられた平面波を発生させ、案内領域内での音声再生を実現することができる。

特開２０００－２９５６９７号公報特開２０１７－１６１４４８号公報

　しかしながら上述した技術では、対象とする領域外へと漏れ出してくる漏れ音を簡単に聞こえにくくすることは困難であった。

　例えば特許文献１に記載の技術では、マイクロホンが設置される制御点においては音が打ち消されるが、制御点以外の位置では音の漏れ出しが生じてしまう。特に、制御点から遠くなるほど音の漏れ出しが大きくなってしまう。

　また、例えば特許文献２に記載の技術では、１つの案内領域を形成するのに多数の制御点が必要となるが、原理上作り出せる制御点の数は、音声再生に用いるスピーカアレイを構成するスピーカの数より１以上少ない数となる。そのため、１つの案内領域を形成するためには大量のスピーカが必要となってしまう。

　本技術は、このような状況に鑑みてなされたものであり、簡単に漏れ音を聞こえにくくすることができるようにするものである。

　本技術の一側面の信号処理装置は、スピーカアレイを用いた波面合成により、第１の領域で第１のコンテンツを再生し、第２の領域で第２のコンテンツを再生する場合に、前記第１の領域と前記第２の領域との間の領域において聞こえる前記第１のコンテンツの音および前記第２のコンテンツの音をマスキングするためのマスキング音を生成するマスキング音生成部を備える。

　本技術の一側面の信号処理方法またはプログラムは、スピーカアレイを用いた波面合成により、第１の領域で第１のコンテンツを再生し、第２の領域で第２のコンテンツを再生する場合に、前記第１の領域と前記第２の領域との間の領域において聞こえる前記第１のコンテンツの音および前記第２のコンテンツの音をマスキングするためのマスキング音を生成するステップを含む。

　本技術の一側面においては、スピーカアレイを用いた波面合成により、第１の領域で第１のコンテンツを再生し、第２の領域で第２のコンテンツを再生する場合に、前記第１の領域と前記第２の領域との間の領域において聞こえる前記第１のコンテンツの音および前記第２のコンテンツの音をマスキングするためのマスキング音が生成される。

　本技術の一側面によれば、簡単に漏れ音を聞こえにくくすることができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

マルチゾーン再生について説明する図である。コンテンツ音と暗騒音の音圧分布について説明する図である。コンテンツ再生システムの構成例を示す図である。パラメータテーブルの例を示す図である。分割領域とマスキング音の再生範囲について説明する図である。コンテンツ音とマスキング音の音圧分布について説明する図である。コンテンツ再生処理を説明するフローチャートである。コンテンツ再生システムの構成例を示す図である。分割領域とマスキング領域について説明する図である。コンテンツ音とマスキング音の音圧分布について説明する図である。コンテンツ再生処理を説明するフローチャートである。コンテンツ再生システムの構成例を示す図である。コンテンツ再生処理を説明するフローチャートである。コンテンツ再生システムの構成例を示す図である。パラメータテーブルの例を示す図である。コンテンツ再生処理を説明するフローチャートである。パラメータテーブルの例を示す図である。コンテンツ再生システムの構成例を示す図である。コンテンツ再生処理を説明するフローチャートである。コンテンツ再生システムの構成例を示す図である。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、互いに異なる領域で異なるコンテンツの音を再生する場合に、それらの領域の間にある領域において、所定レベルのマスキング音により各コンテンツの音をマスキングすることで、簡単に漏れ音を聞こえにくくすることができるようにするものである。

　まず、マルチゾーン再生における漏れ音について説明する。

　例えば図１に示すようにスピーカアレイSP11を用いてマルチゾーン再生を行うことを考える。なお、ここでは説明を簡単にするため、音を打ち消す位置、つまり無音とする位置である制御点は描かれていない。

　いま、波面合成によって領域AにおいてコンテンツA、つまりコンテンツAの音を再生し、領域BにおいてコンテンツBを再生することとする。

　ここでは、分割領域R11がコンテンツAを聞かせたい受聴エリアとなる領域Aとなっており、分割領域R12がコンテンツBを聞かせたい受聴エリアとなる領域Bとなっている。以下では、コンテンツを聞かせたい領域、すなわちコンテンツの受聴エリアを特に分割領域とも称することとする。

　また、コンテンツAとコンテンツBは互いに異なる音楽や音声などとされる。なお、以下、所定のコンテンツの音をコンテンツ音とも称することとする。

　例えばコンテンツAとコンテンツBが同時に再生されている場合、図中の直線L11により示されるx軸上における音圧分布は図２に示すようになる。なお、図２において横軸はx軸方向における位置を示しており、縦軸は各位置における音圧を示している。

　図２に示す例では、曲線L21はコンテンツAの音の音圧分布を示しており、曲線L22はコンテンツBの音の音圧分布を示している。

　また、直線L23はスピーカアレイSP11の周囲における暗騒音の音圧レベルを示している。暗騒音には、例えばスピーカアレイSP11近傍、すなわち周囲の環境を行き交う人々の声や足音、空調の音など、周囲にあるあらゆる音源からの音が含まれるものとする。

　通常、領域Aや領域BにおいてはコンテンツAやコンテンツBの音は、受聴者に聞き取りやすいレベルにするために暗騒音レベルよりも大きな音圧で再生される。

　具体的には、例えば暗騒音が60dB程度である場合には、コンテンツAやコンテンツBの音は80dBなどで再生される。

　このとき、分割領域からの漏れ音が、その分割領域の境界付近で発生する。

　なお、ここでいう漏れ音とは、分割領域から漏れ出して聞こえてしまうコンテンツ音である。すなわち、分割領域外において聞こえてしまうコンテンツ音が漏れ音である。

　例えば図２の例では、点線CR11で囲まれる部分におけるコンテンツAやコンテンツBの音が、分割領域である領域Aと領域Bの間にある領域、つまり分割領域外の領域において聞こえる漏れ音となる。

　特に点線CR11で囲まれる部分においては、コンテンツAやコンテンツBの音圧は、直線L23により示される暗騒音レベルよりも大きく、それらのコンテンツ音が分割領域外にいる人にも聞こえてしまうことになる。

　また、図２の例では点線CR12で囲まれる部分は領域Aの内部の領域であるが、この領域ではコンテンツBの音圧が暗騒音レベルよりも大きくなっている。そのため、領域A内における領域B側の境界付近では、コンテンツAだけでなくコンテンツBの音も受聴者に漏れ聞こえてしまう。つまり、コンテンツBの音が領域Aに漏れ込んでしまう。

　同様に点線CR13で囲まれる部分は領域Bの内部の領域であるが、この領域ではコンテンツAの音圧が暗騒音レベルよりも大きくなっており、コンテンツAの音が領域Bにおいて漏れ聞こえてしまう。

　このような漏れ音は、分割領域でのコンテンツ音が小さかったり、無音区間であったりする場合に、他の分割領域でのコンテンツ音が大きいと受聴者に聞こえてしまう。

　一般的に、漏れ聞こえる音が音声や音楽である場合、人の聴覚はそれらの音に対して注意をひかれるので、漏れ音が中途半端に聞こえてしまうと不快に感じることになる。

　このようにマルチゾーン再生においては、分割領域間でのコンテンツ音の漏れ込みや、分割領域外の領域でのコンテンツ音の漏れを小さくするなどして人が漏れ音を知覚できないようにする必要があり、そのために上述した特許文献１や特許文献２が提案されている。

　しかしながら、既存の技術では、複数スピーカを用いたマルチゾーン再生において、簡単に漏れ音を聞こえにくくすることは困難であった。

　例えば特許文献１では、音を打ち消す位置である制御点以外の領域では漏れ音となるコンテンツ音を打ち消すことができず、制御点周辺において意図しないコンテンツ音が漏れ聞こえてしまう。

　なお、特許文献１では制御点を増やすことは可能であるが、分割領域外で漏れ音を聞こえにくくするためには膨大な数のスピーカとマイクロホンが必要となってしまう。しかも制御点にマイクロホンを設置しなければならないため、制御点の増加は実空間での運用時にマイクロホン等のレイアウトの阻害要因となる。

　また、特許文献２においてもコンテンツ音の漏れ込みを小さくするには膨大な数のスピーカが必要となってしまう。

　そこで本技術では、波面合成技術を用いてマルチゾーン再生を行う場合、つまり再生空間を複数の分割領域に分割して、それらの分割領域で異なるコンテンツを再生する場合に、コンテンツ音だけでなくマスキング音も同時に出力するようにした。これにより、スピーカ数を増加させたり、膨大な数のマイクロホンを用いたりすることなく簡単に漏れ音を聞こえにくくすることができる。

　なお、マスキング音の再生レベルを決定するにあたっては、例えば外部情報や外部センサなどを利用することが可能である。

　例えば外部情報として、コンテンツの再生を行う施設や会場の来場者数（入場者数）を示す来場者数情報や、コンテンツの再生を行う時間帯を示す時間帯情報、コンテンツ再生時の天気（天候）を示す天候情報などを用いることができる。

　このような外部情報を用いれば、コンテンツ再生時における人の数や時間帯、天候などに応じた適切なレベルのマスキング音を出力し、漏れ音となったコンテンツ音をマスキングすることができる。すなわち、マスキング音により漏れ音を聞こえにくくすることができる。

　また、マスキング音の再生レベルの決定に用いる外部センサとして、例えばマイクロホンやカメラなどを採用することができる。

　例えばマイクロホンを用いれば周囲の暗騒音のレベルを推定することができるので、その暗騒音のレベルに応じて、マスキング音の再生レベルを適切に決定することができる。

　同様に、カメラを用いれば周囲にいる人の数を推定することができるので、その推定結果に応じて、マスキング音の再生レベルを適切に決定することができる。

　なお、外部情報や外部センサは、マスキング音の再生レベルの決定だけでなく、マスキング音の周波数特性等の特性の決定にも用いることが可能である。

　また、分割領域内におけるコンテンツ音の再生レベルの変動に応じてマスキング音の再生レベルも変動させるようにしてもよい。

　例えば外部センサとしてマイクロホンを用いる場合、マイクロホンを利用して周囲の暗騒音のレベルを検知することができる。そこで、暗騒音のレベルの検知結果に応じてコンテンツ音の再生レベルを変化させるとともに、そのコンテンツ音の再生レベルの変化分に応じてマスキング音の再生レベルを決定すればよい。

　具体的には、例えばコンテンツ音の再生レベルが大きいときにはマスキング音の再生レベルも大きくし、逆にコンテンツ音の再生レベルが小さいときにはマスキング音の再生レベルも小さくすることが考えられる。

　また、コンテンツ音の再生レベルと暗騒音のレベルの差が大きいときにはマスキング音の再生レベルを大きくし、逆にコンテンツ音の再生レベルと暗騒音のレベルの差が小さいときにはマスキング音の再生レベルを小さくすることも考えられる。

　これは、コンテンツ音の再生レベルと暗騒音のレベルの差が大きいときにはコンテンツ音が大きく聞こえるので、その分だけマスキング音の再生レベルも大きくすると、より漏れ音が聞こえにくくなるためである。

　さらに、周波数帯域ごとにコンテンツ音と暗騒音のレベルを比較するなどして、各周波数帯域においてコンテンツ音が暗騒音を超えて漏れ出るレベルを推定し、その推定結果に応じて、漏れ音を聴覚特性上でマスキングできるように周波数帯域ごとにマスキング音の再生レベルを決定してもよい。

　その他、外部センサとしてのマイクロホンを利用して周囲の暗騒音のレベルを検知し、その検知結果に基づいてマスキング音の再生レベルを決定するようにしてもよい。この場合、コンテンツ音の再生レベルは特に変化させないようにすることができる。

　具体的には、例えば暗騒音のレベルが大きいときには漏れ音は聞こえにくいのでマスキング音の再生レベルを小さくし、逆に暗騒音のレベルが小さいときにはマスキング音の再生レベルを大きくすることが考えられる。

　なお、上述の外部情報を用いたマスキング音の再生レベル制御や、外部センサを用いたマスキング音の再生レベル制御、コンテンツ音の再生レベルに応じたマスキング音の再生レベル制御などを任意に組み合わせてマスキング音の再生レベルや特性を決定してもよい。

　そのような場合、例えば外部情報や、外部センサを用いて得られる情報などの組み合わせと、それらの各組み合わせに対するコンテンツ音の再生レベルおよびマスキング音の再生レベルとを対応付けたパラメータテーブルを予め用意しておくこともできる。そうすれば、例えばパラメータテーブルを用いてコンテンツ音の再生レベルとマスキング音の再生レベルを簡単かつ適切に決定することが可能である。

　その他、コンテンツ音やマスキング音の再生レベルの決定には、例えば外部情報や、外部センサを用いて得られる情報などを入力とし、その入力に対して適切なコンテンツ音の再生レベルおよびマスキング音の再生レベルを出力する予測器を用いてもよい。そのような予測器は、例えばニューラルネットワークに代表される機械学習により予め生成しておけばよい。

　さらに、漏れ音が小さく、聴感上、人が漏れ音を検知できないような状況では、マスキング音を再生（出力）しないようにしてもよい。

　また、暗騒音のレベルを考慮すると、マスキング音の再生レベルをより適切に決定することができる。これは、漏れ音をマスキングするためにはマスキング音の再生レベルを暗騒音のレベルよりも大きくするのがよいためである。

　例えばマスキング音の再生レベルの決定に外部情報を用いる場合、その外部情報から暗騒音のレベルを推定することができる。そこで、例えば与えられた外部情報に対して予め定められた再生レベルをマスキング音の再生レベルとして用いるようにすれば、外部情報に対して推定される暗騒音のレベル以上のレベルでマスキング音を再生することができる。

　また、外部センサとしてカメラを利用する場合、例えばカメラにより撮影された画像に対して顔認識や人物検出を行って、コンテンツを再生するスピーカの近くにいる人の数を推定するとともに、その推定結果に対して予め定められたレベルを暗騒音のレベルとすることができる。そのような場合、暗騒音のレベルに対して、適切にマスキング音の再生レベルを決定することができるようになる。

　さらに、外部センサとしてマイクロホンを用いる場合には、そのマイクロホンにより周囲の音を収音することができる。このような収音により得られた音には、少なくとも暗騒音が含まれているが、収音のタイミングによってはコンテンツ音も含まれてしまう。

　そこで、コンテンツ音の無音区間にのみマイクロホンによる収音を行い、収音により得られた音を暗騒音とすることで、暗騒音のレベルをより正確に推定することができる。

　その他、外部センサとしてマイクロホンを用いる場合、エコーキャンセルを利用して、収音された音から再生中のコンテンツ音をキャンセルし、暗騒音のみを抽出してもよい。この場合においても正確に暗騒音のレベルを推定することができる。

　さらに、漏れ音をマスキングするためのマスキング音の周波数特性等の特性は、雑踏ノイズやバブルノイズ、ピンクノイズなどと同じ特性とすることができる。このようにすることで、違和感を生じさせずに漏れ音をマスキングすることができる。

　その他、マスキング音の周波数特性は、外部センサとしてのマイクロホンにより収音された音と同じ周波数特性とするようにしてもよい。また、マスキング音の特性は、コンテンツ音の特徴を消すような特性、つまりコンテンツ音を聞き取りにくくする特性としてもよい。

　さらに、マスキング音を再生する領域は、コンテンツを再生するシステムが音を再生することが可能な領域全体としてもよい。

　また、波面合成を利用して指向性を有する音響ビームをマスキング音の音響ビーム（波面）として生成することで、複数の分割領域間の領域においてのみマスキング音が再生されるようにしたり、複数の分割領域間の領域と、各分割領域内における境界近傍の領域とでマスキング音が再生されるようにしたりしてもよい。

　さらに、外部センサとしてマイクロホンを使用する場合には、基本的にはマイクロホンはどこに設置してもよいが、例えば波面合成によって形成される分割領域外にマイクロホンを設置すれば、暗騒音と漏れ音のレベルを直接推定することができる。

〈コンテンツ再生システムの構成例〉
　次に、以上において説明した本技術のより具体的な実施の形態について説明する。

　図３は、本技術を適用したコンテンツ再生システムの一実施の形態の構成例を示す図である。

　図３に示すコンテンツ再生システムは、信号処理装置１１およびスピーカアレイ１２を有している。

　信号処理装置１１は、コンテンツ音とマスキング音を再生するための出力音、より詳細には出力音の音響信号を生成し、スピーカアレイ１２に供給する。

　スピーカアレイ１２は、例えば複数のスピーカにより構成される直線スピーカアレイ、環状スピーカアレイ、球状スピーカアレイなどからなる。なお、スピーカアレイ１２は、どのような形状のスピーカアレイであってもよい。

　スピーカアレイ１２は、信号処理装置１１から供給された出力音を出力することで複数のコンテンツ音と、各位置において目的としないコンテンツ音、すなわち漏れ音をマスキングするためのマスキング音とを再生する。

　これにより、波面合成により再生空間内の各分割領域でそれらの分割領域に対応するコンテンツ音がマルチゾーン再生されるとともに、再生空間の全域でマスキング音が再生される。マルチゾーン再生では、スピーカアレイ１２が出力音を出力することで、再生空間における分割領域にコンテンツ音の波面が形成される。

　なお、以下では、スピーカアレイ１２により音を再生可能な空間全体を再生空間と称することとする。また、ここでは再生空間で再生されるコンテンツや、各コンテンツ音が再生される分割領域の位置および大きさは予め定められているものとする。しかし、再生されるコンテンツや分割領域の位置および大きさが予め定められておらず、動的に変化するようにしてもよい。

　信号処理装置１１はマスキング音生成部２１、波面合成フィルタ部２２、再生レベル調整部２３、増幅部２４、増幅部２５、加算部２６、およびDA（Digital to Analog）変換部２７を有している。

　マスキング音生成部２１は、外部から供給された外部情報に基づいてマスキング音を生成し、増幅部２４に供給する。

　波面合成フィルタ部２２は、例えば波面合成によりコンテンツを分割領域でのみ再生するための波面合成フィルタを予め有している。

　なお、波面合成フィルタ部２２が波面合成フィルタを生成するようにしてもよい。

　波面合成フィルタの生成時には、例えばコンテンツ音を再生する分割領域の位置や大きさを示す座標情報、スピーカアレイ１２を構成する各スピーカの配置位置などに基づく演算により波面合成フィルタが生成される。

　このような波面合成フィルタを用いた波面合成では、波面合成フィルタによるフィルタリング処理によって、スピーカアレイ１２を構成する各スピーカから出力する出力音の振幅と位相を制御することで、再生空間内における音の波面が物理的に再現される。すなわち、分割領域でのみコンテンツ音の波面が形成される。

　波面合成については、例えば特開２０１３－１０２３８９号公報や「Berkhout, Augustinus J., Diemer de Vries, and Peter Vogel. "Acoustic control by wave field synthesis." The Journal of the Acoustical Society of America 93.5 (1993): 2764-2778.」などに詳細に記載されている。例えば波面合成フィルタ部２２では、これらの文献に記載の技術等を利用すればよい。

　波面合成フィルタ部２２は、供給されたコンテンツ音データ、すなわちコンテンツ音を再生するための音響信号に対して波面合成フィルタによるフィルタリング処理を行い、その結果得られたスピーカアレイ１２を構成する各スピーカに対応する各チャンネルの出力音を増幅部２５に供給する。

　より詳細には、波面合成フィルタ部２２は、コンテンツごとに波面合成フィルタを有しており、各コンテンツについて、波面合成フィルタによるコンテンツ音データのフィルタリング処理を行う。そして波面合成フィルタ部２２は、チャンネルごとに、フィルタリング処理により得られた各コンテンツのコンテンツ音を加算し、各コンテンツ音を含む出力音とする。すなわち、同じチャンネルについて得られた各コンテンツ音の音響信号が加算されて、そのチャンネルの出力音の音響信号とされる。

　再生レベル調整部２３は、外部から供給された外部情報、および供給されたコンテンツ音データの少なくとも何れか一方に基づいて、マスキング音とコンテンツ音の再生レベルの調整を制御する。

　すなわち、再生レベル調整部２３は、外部情報とコンテンツ音データの少なくとも何れか一方に基づいてマスキング音の再生レベルを決定し、決定された再生レベルでマスキング音を再生させるためのマスキング音用のゲイン係数を増幅部２４に供給する。

　同様に、再生レベル調整部２３は、外部情報とコンテンツ音データの少なくとも何れか一方に基づいてコンテンツ音の再生レベルを決定し、決定された再生レベルでコンテンツ音を再生させるためのコンテンツ音用のゲイン係数を増幅部２５に供給する。

　増幅部２４は、増幅器からなり、マスキング音生成部２１から供給されたマスキング音に対して、再生レベル調整部２３から供給されたマスキング音用のゲイン係数を乗算することでマスキング音のレベル調整（ゲイン調整）を行う。増幅部２４は、レベル調整後のマスキング音を加算部２６へと供給する。

　増幅部２５は、例えばスピーカアレイ１２を構成する各スピーカに対応するチャンネルごとに設けられた増幅器からなる。

　増幅部２５は、波面合成フィルタ部２２から供給された各チャンネルの出力音に対して、再生レベル調整部２３から供給されたコンテンツ音用のゲイン係数を乗算することで出力音、すなわちコンテンツ音のレベル調整（ゲイン調整）を行う。増幅部２５は、レベル調整後の出力音を加算部２６へと供給する。

　加算部２６は、例えばスピーカアレイ１２を構成する各スピーカに対応するチャンネルごとに設けられた加算器からなる。

　加算部２６は、増幅部２５から供給された各チャンネルの出力音に対して、増幅部２４から供給されたマスキング音を加算することで、最終的な各チャンネルの出力音を生成し、DA変換部２７に供給する。

　DA変換部２７は、加算部２６から供給された各チャンネルの出力音に対してDA変換を行い、その結果得られた各チャンネルのアナログ信号である出力音の音響信号を、スピーカアレイ１２を構成する各チャンネルに対応するスピーカに供給し、出力音を出力（再生）させる。したがってDA変換部２７は、コンテンツ音とともに、マスキング音をスピーカアレイ１２から出力させる出力部として機能するということができる。

〈マスキング音の生成および再生レベルの調整について〉
　ここで、信号処理装置１１におけるマスキング音の生成や再生レベルの調整について説明する。

　マスキング音生成部２１および再生レベル調整部２３に供給される外部情報は、例えば上述した来場者数情報、時間帯情報、コンテンツの再生を行う曜日を示す曜日情報、および天候情報のうちの少なくとも何れか１つなどとすることができる。

　マスキング音生成部２１は、供給された外部情報に応じてマスキング音を生成し、再生レベル調整部２３は外部情報に応じてマスキング音とコンテンツ音の再生レベルを調整させる。

　具体的には、外部情報として曜日情報と時間帯情報が用いられる場合、マスキング音生成部２１および再生レベル調整部２３には、例えば図４に示すパラメータテーブルが予め保持されている。

　図４において文字「曜日」および「時間帯」は、それぞれ曜日情報および時間帯情報を示している。

　また、文字「コンテンツ音再生レベル」および「マスキング音再生レベル」は、それぞれコンテンツ音の再生レベルおよびマスキング音の再生レベル、すなわちコンテンツ音用のゲイン係数およびマスキング音用のゲイン係数を示している。さらに文字「マスキング音パラメータ」は、マスキング音の周波数特性を示す情報であるマスキング音パラメータを示している。

　マスキング音生成部２１では、パラメータテーブルが参照されて、供給された外部情報としての曜日情報および時間帯情報の組み合わせに対して予め定められたマスキング音パラメータにより示されるマスキング音が生成される。

　例えばマスキング音パラメータ「空調」は、空調の音が有する周波数特性を示しており、このマスキング音パラメータ「空調」に基づいて生成されるマスキング音は、空調音と同様な周波数特性を有する音とされる。したがって、そのようなマスキング音を再生した場合には、それを聞いている人には空調音がなっているように聞こえることになる。

　また、マスキング音パラメータ「雑踏＋空調」は、雑踏音と空調音の混合音が有する周波数特性を示している。したがって、マスキング音パラメータ「雑踏＋空調」に基づいて生成されるマスキング音を再生すれば、それを聞いている人には雑踏音と空調音がなっているように聞こえることになる。

　マスキング音生成部２１には、このようなパラメータテーブルとともに各マスキング音パラメータが予め保持されている。

　再生レベル調整部２３では、パラメータテーブルが参照されて、供給された外部情報としての曜日情報および時間帯情報の組み合わせに対して予め定められたコンテンツ音用のゲイン係数およびマスキング音用のゲイン係数が、増幅部２５および増幅部２４に供給される。

　再生レベル調整部２３には、パラメータテーブルとともにコンテンツ音用のゲイン係数およびマスキング音用のゲイン係数が予め保持されている。

　例えば外部情報として曜日情報「日曜日」と時間帯情報「8：00-12：00」が供給された場合、コンテンツ音が25dBで再生され、空調音と同様のマスキング音が3dBで再生されることになる。

　図４に示す例では、例えば日曜日の午前中など、来場者が少ないであろう曜日および時間帯には再生空間は比較的静かであると予測されるため、コンテンツ音の再生レベルが比較的小さくされ、それに伴いマスキング音の再生レベルも小さくなっている。また、この場合、再生空間は比較的静かであると予測されるので、マスキング音は空調音のみとなっている。

　これに対して、例えば日曜日の午後などにおいては、来場者が多いと予測されるため、コンテンツ音の再生レベルが大きくされ、それに伴いマスキング音の再生レベルも大きくなっており、マスキング音も雑踏音と空調音となっている。

　その他、外部情報として来場者数情報が用いられる場合、例えば来場者数が多いときにはコンテンツ音やマスキング音の再生レベルが大きくされるとともに、マスキング音が雑踏音と空調音とされるようにしてもよい。

　また、例えばコンテンツ再生システムが屋根付きの屋外で用いられ、外部情報として天候情報が用いられる場合、天候情報により示される天候が雨であるときには、暗騒音に含まれる雨音によって漏れ音がある程度マスキングされる。

　したがって、そのような場合にはコンテンツ音の再生レベルは大きくされ、マスキング音の再生レベルは小さくされるようにすることができる。なお、この場合、マスキング音は再生されないようにしてもよい。また、マスキング音が雨音とされるようにしてもよい。

　以上のように信号処理装置１１では、外部情報と、コンテンツ音用のゲイン係数と、マスキング音用のゲイン係数と、マスキング音パラメータとが対応付けられたパラメータテーブルが用いられてマスキング音の生成や、コンテンツ音とマスキング音の再生レベルの調整が制御される。

　このような制御は、外部情報に応じてコンテンツ音の再生レベルを変動させ、また、そのコンテンツ音の再生レベルの変動に応じてマスキング音の再生レベルを変動させる制御であるということができる。

　特に、図４に示した例ではコンテンツ音の再生レベルが大きいときにはマスキング音の再生レベルも大きくされ、逆にコンテンツ音の再生レベルが小さいときにはマスキング音の再生レベルも小さくされている。

　また、マスキング音生成部２１に予め保持されているマスキング音パラメータは、例えばコンテンツ再生システムの稼働場所の空調や人が往来する際の雑踏などの暗騒音を予め計測することにより生成される。例えばマスキング音生成部２１では、このようなマスキング音パラメータにより示される暗騒音の周波数特性を有するガウシアンノイズなどがマスキング音として生成されることになる。

　なお、マスキング音はガウシアンノイズに限らず、ピンクノイズや白色ノイズ、雑踏ノイズ、バブルノイズ等の一般的なノイズなど、他のどのようなノイズであってもよい。

　また、マスキング音生成部２１において、コンテンツ音が用いられて、そのコンテンツ音の特徴を消すような特性のマスキング音が生成されるようにしてもよい。すなわち、コンテンツ音の周波数特性に応じてマスキング音の周波数特性を変化させるようにしてもよい。そのような場合、マスキング音生成部２１にコンテンツ音データが供給される。

　具体的には、例えばコンテンツ音が音声である場合、マスキング音生成部２１は、コンテンツ音としての音声のフォルマントを解析することで、コンテンツ音の周波数の谷間を埋めるような周波数特性をもつマスキング音を生成する。すなわち、各周波数のうち、コンテンツ音でレベルが小さい周波数において、マスキング音のレベルが大きくなるような周波数特性のマスキング音が生成される。

　このようなマスキング音をコンテンツ音とともに再生すれば、分割領域から漏れ出るコンテンツ音としての音声特有の特徴を消すことができ、マスキング効果を向上させることができる。すなわち、漏れ音が人の音声であることを知覚させにくくすることができる。

　さらに再生レベル調整部２３において、供給されたコンテンツ音に対する周波数解析を行い、その解析結果に基づいて周波数帯域ごとにマスキング音の再生レベルを決定してもよい。そのような場合、周波数帯域ごとにコンテンツ音が暗騒音を超えて漏れ出るレベルが推定され、漏れ音が聴覚特性上でマスキングされるように周波数帯域ごとにマスキング音の再生レベルが決定されることになる。

　その他、パラメータテーブル以外にも、予め機械学習により生成されたニューラルネットワーク等の予測器が用いられるようにしてもよい。

　そのような場合、例えばマスキング音生成部２１は、予め保持している予測器に外部情報を入力して演算することにより、出力としてマスキング音パラメータを得て、得られたマスキング音パラメータに基づいてマスキング音を生成する。

　また、この場合、再生レベル調整部２３は、予め保持している予測器に外部情報やコンテンツ音を入力して演算することにより、出力としてコンテンツ音用のゲイン係数およびマスキング音用のゲイン係数を得る。

〈マスキング音の再生範囲について〉
　さらに、図３に示した構成の信号処理装置１１では、例えば再生空間全体をマスキング音の再生範囲とすることができる。

　具体的には、例えば図５に示すようにスピーカアレイ１２の前方にある領域R21が再生空間であるとする。

　この例では、再生空間の全領域である領域R21内に、コンテンツ音が再生される２つの分割領域R22および分割領域R23が形成される。すなわち、上述した領域Aに対応する分割領域R22ではコンテンツAが再生され、領域Bに対応する分割領域R23ではコンテンツBが再生される。

　なお、ここでは説明を簡単にするため、分割領域が２つである場合について説明するが、分割領域は３以上であっても勿論よい。

　図５の例では、分割領域R22および分割領域R23を含む領域R21全体でマスキング音が再生されるようになっている。

　この場合、図５中の直線L31により示されるx軸上における音圧分布は図６に示すようになる。なお、図６において横軸はx軸方向における位置を示しており、縦軸は各位置における音圧を示している。

　図６に示す例では、曲線L41はコンテンツAの音の音圧分布を示しており、曲線L42はコンテンツBの音の音圧分布を示している。

　また、直線L43はマスキング音の音圧分布を示しており、直線L44はスピーカアレイ１２の周囲における暗騒音の音圧レベルを示している。

　この例では、マスキング音は再生空間内の各位置において同じ音圧（再生レベル）となっており、かつマスキング音の再生レベルは暗騒音のレベルよりも大きくなるようになされている。

　これにより、再生空間の各位置において暗騒音よりも大きな漏れ音を聞き取りにくくすることができる。特に、ここでは分割領域R22と分割領域R23の間の領域だけでなく、分割領域R22や分割領域R23内部における境界部分においても、漏れ音となるコンテンツ音よりマスキング音のレベルが大きくなっており、漏れ音がマスキングされていることが分かる。

　例えば外部情報を用いれば、実際に暗騒音のレベルを測定しなくても外部情報から大よその暗騒音レベルを推定することができる。したがって、外部情報とパラメータテーブルに基づいてマスキング音の再生レベルを決定する方法では、マスキング音の再生レベルを外部情報に対して定められた再生レベルとすることで、暗騒音レベルよりも大きい再生レベルでマスキング音を再生することが可能である。暗騒音によっても小さい漏れ音はマスキングされるが、暗騒音レベルよりも大きい再生レベルでマスキング音を再生することで、マスキング音によって、より大きい漏れ音もマスキングされるようになり、漏れ音を聞こえにくくすることができる。

〈コンテンツ再生処理の説明〉
　続いてコンテンツ再生システムにより行われるコンテンツ再生処理について説明する。すなわち、以下、図７のフローチャートを参照して、コンテンツ再生システムによるコンテンツ再生処理について説明する。このコンテンツ再生処理は、複数のコンテンツが指定され、それらのコンテンツの再生が指示されると開始される。

　ステップＳ１１においてマスキング音生成部２１は、外部から供給された外部情報と、予め保持しているパラメータテーブルとに基づいてマスキング音を生成し、増幅部２４に供給する。

　例えばステップＳ１１ではパラメータテーブルが参照されて、外部情報に対応付けられているマスキング音パラメータに基づいて、マスキング音が生成される。

　ステップＳ１２において波面合成フィルタ部２２は、供給されたコンテンツ音データに対して波面合成フィルタによるフィルタリング処理を行い、その結果得られた各チャンネルの出力音を増幅部２５に供給する。

　例えばコンテンツAとコンテンツBが再生対象のコンテンツとして指定されたとすると、図５に示した例のように、波面合成によりコンテンツAが分割領域R22内でのみ再生され、かつコンテンツBが分割領域R23内でのみ再生される出力音が生成される。

　ステップＳ１３において再生レベル調整部２３は、供給された外部情報およびコンテンツ音データの少なくとも何れか一方と、保持しているパラメータテーブルとに基づいて、マスキング音とコンテンツ音の再生レベルを決定する。

　例えばステップＳ１３ではパラメータテーブルが参照されて、外部情報に対応付けられているゲイン係数を特定することにより、コンテンツ音とマスキング音の再生レベルが決定される。再生レベル調整部２３は、決定されたマスキング音用のゲイン係数を増幅部２４に供給するとともに、コンテンツ音用のゲイン係数を増幅部２５に供給する。

　ステップＳ１４において増幅部２４および増幅部２５はレベル調整を行う。

　すなわち、増幅部２４は、マスキング音生成部２１から供給されたマスキング音に対して、再生レベル調整部２３から供給されたマスキング音用のゲイン係数を乗算することでレベル調整を行い、レベル調整後のマスキング音を加算部２６に供給する。

　また、増幅部２５は、波面合成フィルタ部２２から供給された各チャンネルの出力音に対して、再生レベル調整部２３から供給されたコンテンツ音用のゲイン係数を乗算することでレベル調整を行い、レベル調整後の各チャンネルの出力音を加算部２６に供給する。

　ステップＳ１５において加算部２６は、増幅部２５から供給された各チャンネルの出力音に対して、増幅部２４から供給されたマスキング音を加算する加算処理を行い、その結果得られた最終的な各チャンネルの出力音をDA変換部２７に供給する。

　ステップＳ１６においてDA変換部２７は、加算部２６から供給された各チャンネルの出力音に対してDA変換を行い、その結果得られた各チャンネルの出力音を、スピーカアレイ１２の各チャンネルに対応するスピーカに供給してコンテンツ音を再生させる。

　スピーカアレイ１２の各スピーカは、DA変換部２７から供給された出力音を出力することで、コンテンツ音を再生すると同時にマスキング音も再生する。

　これにより、例えば図５の分割領域R22内ではコンテンツAが再生され、分割領域R23内ではコンテンツBが再生されるマルチゾーン再生が波面合成により実現される。同時に、再生空間全体の領域R21では、各位置で均一の音圧（再生レベル）でマスキング音が再生されることになる。

　このようにしてコンテンツ音が再生されると、コンテンツ再生処理は終了する。

　以上のようにしてコンテンツ再生システムは、外部情報に基づいてマスキング音を生成し、コンテンツ音とともにマスキング音も再生する。このようにすることで、スピーカ数を増加させたり、膨大な数のマイクロホンを用いたりすることなく簡単に漏れ音を聞こえにくくすることができる。

〈第２の実施の形態〉
〈コンテンツ再生システムの構成例〉
　なお、以上においては再生空間の全体で均一な音圧（レベル）でマスキング音が再生される例について説明した。しかし、それに限らずマスキング音についても波面合成を利用して特定の領域でのみ再生されるようにしてもよい。

　そのような場合、コンテンツ再生システムは、例えば図８に示すように構成される。なお、図８において図３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図８に示すコンテンツ再生システムは、信号処理装置１１とスピーカアレイ１２とを有している。また、図８に示す信号処理装置１１の構成は、新たに波面合成フィルタ部５１が設けられ、かつ図３に示した増幅部２４に代えて増幅部５２が設けられている点において図３に示した信号処理装置１１の構成と異なっており、その他の点では図３の信号処理装置１１と同じ構成とされている。

　波面合成フィルタ部５１は、例えば波面合成によりマスキング音を所定のマスキング領域でのみ再生するための波面合成フィルタを予め有している。なお、波面合成フィルタ部５１が波面合成フィルタを生成するようにしてもよい。

　ここで、マスキング領域とはコンテンツ音、つまり漏れ音のマスキングを行いたい領域であり、例えば複数の分割領域の間の領域がマスキング領域とされる。

　波面合成フィルタ部５１は、マスキング音生成部２１から供給されたマスキング音、より詳細にはマスキング音の音響信号に対して波面合成フィルタによるフィルタリング処理を行い、その結果得られた各チャンネルのマスキング音を増幅部５２に供給する。

　このようにして得られる各チャンネルのマスキング音をスピーカアレイ１２の各スピーカから出力すると、目的とするマスキング領域でのみマスキング音が再生されるように、波面合成によってマスキング音の波面が形成される。

　換言すれば、各チャンネルのマスキング音をスピーカアレイ１２の各スピーカから出力すると、波面合成により指向性を有する音響ビームがマスキング音の音響ビームとして生成され、結果としてマスキング領域のみでマスキング音が再生されることになる。

　このように波面合成用の各チャンネルのマスキング音を生成することで、マスキング領域を区切ることができ、目的とするマスキング領域でのみコンテンツの漏れ音をマスキングすることができる。換言すれば、漏れ音が生じる領域をマスキング領域とすることで、漏れ音のみをマスキングすることができるようになる。

　増幅部５２は、例えばスピーカアレイ１２を構成する各スピーカに対応するチャンネルごとに設けられた増幅器からなる。

　増幅部５２は、波面合成フィルタ部５１から供給された各チャンネルのマスキング音に対して、再生レベル調整部２３から供給されたマスキング音用のゲイン係数を乗算することでマスキング音のレベル調整を行い、レベル調整後のマスキング音を加算部２６に供給する。

　加算部２６は、増幅部２５から供給された各チャンネルの出力音に対して、増幅部５２から供給された各チャンネルのマスキング音を加算することで、最終的な各チャンネルの出力音を生成し、DA変換部２７に供給する。加算部２６では、同じチャンネルのマスキング音と出力音が加算される。

〈マスキング領域について〉
　図８に示した構成の信号処理装置１１では、再生空間全体ではなく、マスキング領域がマスキング音の再生範囲とされる。

　具体的には、例えば図９に示すようにスピーカアレイ１２の前方にある領域が再生空間であるとする。なお、図９において図５における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図９の例では、再生空間に２つの分割領域R22および分割領域R23が形成され、さらにそれらの分割領域R22と分割領域R23との間の領域がマスキング領域R31とされている。したがって、この例ではマスキング領域R31内においてのみマスキング音が再生されて漏れ音のマスキングが行われ、マスキング領域R31外ではマスキング音は再生されず、漏れ音のマスキングは行われない。

　この場合、図９中の直線L31により示されるx軸上における音圧分布は図１０に示すようになる。なお、図１０において横軸はx軸方向における位置を示しており、縦軸は各位置における音圧を示している。また、図１０において図６における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１０に示す例では、曲線L51はマスキング音の音圧分布を示している。

　曲線L51に示されるようにマスキング音の音圧は、分割領域R22と分割領域R23との間の領域、つまりマスキング領域R31内でのみ暗騒音レベルよりも大きくなっており、マスキング領域R31外では暗騒音レベルよりも小さくなっていることが分かる。換言すれば、波面合成が利用されてマスキング領域R31においてのみマスキング音による漏れ音のマスキングが行われていることが分かる。

〈コンテンツ再生処理の説明〉
　以上のような図８に示したコンテンツ再生システムでは、図１１に示すコンテンツ再生処理が行われる。すなわち、以下、図１１のフローチャートを参照して、図８に示したコンテンツ再生システムによるコンテンツ再生処理について説明する。

　コンテンツ再生処理が開始されると、ステップＳ４１の処理が行われるが、ステップＳ４１の処理は図７のステップＳ１１の処理と同様であるのでその説明は省略する。

　ステップＳ４２において波面合成フィルタ部５１は、マスキング音生成部２１から供給されたマスキング音に対して波面合成フィルタによるフィルタリング処理を行い、その結果得られた各チャンネルのマスキング音を増幅部５２に供給する。

　例えばコンテンツAとコンテンツBが再生対象のコンテンツとして指定されたとすると、図９に示した例のように、波面合成によりマスキング領域R31内においてのみマスキング音が再生されるように、各チャンネルのマスキング音が生成される。

　ステップＳ４２の処理が行われると、その後、ステップＳ４３乃至ステップＳ４７の処理が行われてコンテンツ再生処理が終了するが、これらの処理は図７のステップＳ１２乃至ステップＳ１６の処理と同様であるので、その説明は省略する。

　但し、ステップＳ４５では、増幅部５２において各チャンネルのマスキング音のレベル調整が行われるとともに、増幅部２５で各チャンネルの出力音のレベル調整が行われ、ステップＳ４６では、チャンネルごとにマスキング音と出力音の加算処理が行われる。

　スピーカアレイ１２において各チャンネルの出力音が出力されると、例えば図９に示したように分割領域R22でコンテンツAが再生され、分割領域R23ではコンテンツBが再生され、マスキング領域R31ではマスキング音が再生される。

　以上のようにしてコンテンツ再生システムは、外部情報に基づいてマスキング音を生成し、波面合成によってコンテンツ音とともにマスキング音も再生する。このようにすることで、簡単に漏れ音を聞こえにくくすることができる。しかも所望のマスキング領域のみを対象として漏れ音のマスキングを行うことができる。

〈第３の実施の形態〉
〈コンテンツ再生システムの構成例〉
　さらに、以上においてはマスキング音の生成に外部情報を用いる例について説明したが、外部センサの出力を用いてマスキング音を生成するようにしてもよい。

　例えば外部センサとしてカメラを用いる場合、コンテンツ再生システムは図１２に示すように構成される。なお、図１２において図８における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１２に示すコンテンツ再生システムは、カメラ８１、信号処理装置１１、およびスピーカアレイ１２を有している。

　また、図１２に示す信号処理装置１１の構成は、図８に示した信号処理装置１１の構成に加えて新たに認識部９１が設けられた構成となっており、その他の点では図８の信号処理装置１１と同じ構成とされている。

　外部センサとして設けられたカメラ８１は、例えば再生空間内に配置されており、再生空間全体、または分割領域の周辺の領域を被写体として撮影し、その結果得られた撮影画像を認識部９１に供給する。例えば撮影画像には、少なくとも分割領域の周囲の領域が被写体として含まれている。

　認識部９１は、カメラ８１から供給された撮影画像に対して顔認識や人物認識を行って撮影画像から人を検出することで、コンテンツ再生システムの周囲、すなわち再生空間全体や、分割領域周囲にいる人の数（人数）を推定する。換言すれば、認識部９１は撮影画像から人を検出する検出部として機能する。認識部９１は、コンテンツ再生システムの周囲にいる人の人数の推定結果として得られた、人数を示す人数情報をマスキング音生成部２１および再生レベル調整部２３に供給する。

　マスキング音生成部２１は、認識部９１から供給された人数情報に基づいてマスキング音を生成し、波面合成フィルタ部５１に供給する。

　具体的には、例えば人数情報により示される人数が所定の閾値以上である場合、つまり周囲に人が多くいる場合、周囲にはノイズ源が多いので、マスキング音生成部２１はガウシアンノイズをマスキング音として生成する。これはノイズ源が多いほど、それらのノイズ源の音からなる暗騒音は、ガウシアンノイズに近づくからである。

　これに対して、例えば人数情報により示される人数が閾値未満である場合、つまり周囲に人が少ない場合、マスキング音生成部２１はスーパーガウシアンノイズをマスキング音として生成する。これはノイズ源が少ないと、それらのノイズ源の音からなる暗騒音の周波数特性の尖度が大きくなるからである。

　なお、人数情報により示される人数に応じた尖度の周波数特性を有するノイズがマスキング音として生成されるようにしてもよい。その他、ニューラルネットワーク等の予測器に人数情報を入力して演算を行うことで、その出力として得られる周波数特性を有するマスキング音を生成するようにしてもよいし、外部情報と人数情報を組み合わせてマスキング音を生成するようにしてもよい。

　このように周囲にいる人の数に応じてマスキング音を生成することで、暗騒音が有する特性に近い特性のマスキング音を生成することができる。

　再生レベル調整部２３は、認識部９１から供給された人数情報に基づいてコンテンツ音用のゲイン係数およびマスキング音用のゲイン係数を決定し、増幅部２５および増幅部５２に供給する。

　具体的には、例えば人数情報により示される人数が多いほどコンテンツ音の再生レベルが大きくなるように、コンテンツ音用のゲイン係数が決定される。これは、周囲に人が多いほど、コンテンツ音が聞き取りにくくなるためである。

　これに対して、例えば人数情報により示される人数が多いほどマスキング音の再生レベルが小さくなるように、マスキング音用のゲイン係数が決定される。これは、周囲に人が多いほど、暗騒音のレベルが大きく漏れ音が聞こえにくくなるためである。なお、人数情報により示される人数が所定人数以上であり、暗騒音レベルが大きいと推定される場合には、マスキング音は再生（生成）されないようにしてもよい。

　その他、マスキング領域にのみ人がいる場合には、コンテンツ音の再生レベルは通常程度の大きさとされ、マスキング音の再生レベルは大きくされるようにしてもよい。

　このような人数情報を用いたマスキング音の再生レベルの調整は、人数情報から推定される暗騒音のレベルに対して適切なマスキング音の再生レベルを決定する処理であるということができる。

　なお、再生レベル調整部２３において、第１の実施の形態における場合と同様に、人数情報だけでなくコンテンツ音データも用いられてコンテンツ音用のゲイン係数やマスキング音用のゲイン係数が決定されるようにしてもよい。

　さらに、ニューラルネットワーク等の予測器に人数情報やコンテンツ音データを入力して演算を行うことで、その出力としてコンテンツ音やマスキング音の再生レベルの決定結果が得られるようにしてもよいし、外部情報と人数情報を組み合わせてコンテンツ音やマスキング音の再生レベルが決定されるようにしてもよい。

〈コンテンツ再生処理の説明〉
　以上のような図１２に示したコンテンツ再生システムでは、図１３に示すコンテンツ再生処理が行われる。すなわち、以下、図１３のフローチャートを参照して、図１２に示したコンテンツ再生システムによるコンテンツ再生処理について説明する。

　ステップＳ７１において認識部９１は、カメラ８１から供給された撮影画像に基づいて認識処理を行い、その結果得られた人数情報をマスキング音生成部２１および再生レベル調整部２３に供給する。

　ステップＳ７２においてマスキング音生成部２１は、認識部９１から供給された人数情報に基づいてマスキング音を生成し、波面合成フィルタ部５１に供給する。

　例えばステップＳ７２では、人数情報に応じてガウシアンノイズまたはスーパーガウシアンノイズがマスキング音として生成される。

　マスキング音が生成されると、その後、ステップＳ７３においてマスキング音に対するフィルタリング処理が行われ、ステップＳ７４においてコンテンツ音に対するフィルタリング処理が行われる。なお、これらの処理は図１１のステップＳ４２およびステップＳ４３の処理と同様であるので、その説明は省略する。

　ステップＳ７５において再生レベル調整部２３は、認識部９１から供給された人数情報に基づいてコンテンツ音の再生レベルおよびマスキング音の再生レベルを決定する。

　例えばステップＳ７５では、人数情報により示される人数が多いほど、コンテンツ音の再生レベルが大きくなり、かつマスキング音の再生レベルが小さくなるように、コンテンツ音用のゲイン係数、およびマスキング音用のゲイン係数が決定される。

　コンテンツ音とマスキング音の再生レベル、すなわちゲイン係数が決定されると、その後、ステップＳ７６乃至ステップＳ７８の処理が行われてコンテンツ再生処理は終了するが、これらの処理は図１１のステップＳ４５乃至ステップＳ４７の処理と同様であるので、その説明は省略する。

　以上のようにしてコンテンツ再生システムは、人数情報に基づいてマスキング音を生成するとともに、コンテンツ音やマスキング音の再生レベルを調整し、波面合成によってコンテンツ音とマスキング音を再生する。このようにすることで、簡単に漏れ音を聞こえにくくすることができる。

〈第４の実施の形態〉
〈コンテンツ再生システムの構成例〉
　さらに、外部センサとしてマイクロホンを用いるようにしてもよい。そのような場合、コンテンツ再生システムは、例えば図１４に示すように構成される。なお、図１４において図８における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１４に示すコンテンツ再生システムは、マイクロホン１２１、信号処理装置１１、およびスピーカアレイ１２を有している。

　また、図１４に示す信号処理装置１１の構成は、図８に示した信号処理装置１１の構成に加えて新たにAD（Analog to Digital）変換部１３１および暗騒音解析部１３２が設けられた構成となっており、その他の点では図８の信号処理装置１１と同じ構成とされている。

　外部センサとしてのマイクロホン１２１は、例えば再生空間内の任意の位置に配置され、再生空間内、例えば分割領域周囲の領域の暗騒音を取得する。すなわち、マイクロホン１２１は周囲の音（以下、収録音と称する）を収音し、AD変換部１３１に供給する。なお、マイクロホン１２１は１つであってもよいが、複数のマイクロホン１２１が配置されるようにしても勿論よい。

　AD変換部１３１は、マイクロホン１２１から供給された収録音をAD変換し、その結果得られたデジタルの収録音を暗騒音解析部１３２に供給する。

　暗騒音解析部１３２は、外部から供給されたコンテンツ音データに基づいて、AD変換部１３１から供給された収録音のレベル等の解析、つまり周囲の暗騒音の特性の解析を行い、その解析結果をマスキング音生成部２１および再生レベル調整部２３に供給する。

　例えばスピーカアレイ１２により出力音が出力されている状態では、マイクロホン１２１で得られた収録音には周囲の暗騒音だけでなく、コンテンツ音やマスキング音も含まれている。

　そこで、暗騒音解析部１３２は供給されたコンテンツ音データに基づいて、コンテンツ音が無音となっている無音区間、つまりコンテンツが再生されていない区間に収音された収録音を暗騒音とみなす。そして、暗騒音解析部１３２は、暗騒音とみなした区間の収録音に対して解析処理を行う。なお、コンテンツ音が無音である区間では、マスキング音も再生されていないものとする。

　具体的には、例えば解析処理として暗騒音のレベルである暗騒音レベルが算出されたり、暗騒音の周波数特性が周波数分析（周波数解析）により求められたり、暗騒音の振幅特性が求められたりする。このようにして得られた暗騒音レベルや周波数特性が暗騒音の解析結果として暗騒音解析部１３２から出力される。

　マスキング音生成部２１は、暗騒音解析部１３２から供給された解析結果に基づいてマスキング音を生成し、波面合成フィルタ部５１に供給する。

　例えばマスキング音生成部２１では、第１の実施の形態と同様にパラメータテーブルに基づいてマスキング音を生成してもよいし、ニューラルネットワーク等の予測器を用いてマスキング音を生成してもよい。

　再生レベル調整部２３は、暗騒音解析部１３２から供給された解析結果、および供給されたコンテンツ音データの少なくとも何れか一方に基づいて、マスキング音とコンテンツ音の再生レベルの調整を制御する。

　すなわち、再生レベル調整部２３は、解析結果とコンテンツ音データの少なくとも何れか一方に基づいてマスキング音の再生レベル、すなわちマスキング音用のゲイン係数を決定し、決定されたゲイン係数を増幅部５２に供給する。

　同様に、再生レベル調整部２３は、解析結果とコンテンツ音データの少なくとも何れか一方に基づいてコンテンツ音の再生レベル、すなわちコンテンツ音用のゲイン係数を決定し、決定されたゲイン係数を増幅部２５に供給する。

　例えば再生レベル調整部２３では、第１の実施の形態と同様にパラメータテーブルに基づいてゲイン係数を決定してもよいし、ニューラルネットワーク等の予測器を用いてゲイン係数を決定してもよい。

　ここで、具体例としてパラメータテーブルに基づいて、マスキング音の生成やゲイン係数の決定が行われる場合について説明する。そのような場合、例えばマスキング音生成部２１や再生レベル調整部２３には図１５に示すパラメータテーブルが予め保持されている。

　図１５において文字「暗騒音音圧」は、暗騒音解析部１３２での解析結果として得られた暗騒音レベル、すなわち測定された暗騒音の音圧を示している。

　また、文字「コンテンツ音再生レベル」および「マスキング音再生レベル」は、それぞれコンテンツ音の再生レベルおよびマスキング音の再生レベル、すなわちコンテンツ音用のゲイン係数およびマスキング音用のゲイン係数を示している。さらに文字「マスキング音パラメータ」はマスキング音パラメータを示している。

　例えばマスキング音パラメータ「空調」は、図４における場合と同様に空調音の周波数特性を示しており、マスキング音パラメータ「マイク取得音の周波数特性」は暗騒音としての収録音の周波数特性を示している。

　なお、マスキング音生成部２１にはマスキング音パラメータ「マイク取得音の周波数特性」は予め保持されておらず、暗騒音解析部１３２から解析結果として供給された暗騒音の周波数特性がマスキング音パラメータ「マイク取得音の周波数特性」として用いられる。

　この場合、マスキング音パラメータとしての暗騒音の周波数特性に応じたガウシアンノイズがマスキング音として生成されるようにしてもよい。

　このようなマスキング音パラメータ「マイク取得音の周波数特性」に基づいてマスキング音を生成すれば、実際の暗騒音と同じ周波数特性を有するマスキング音を得ることができ、違和感を生じさせずに、より自然に漏れ音をマスキングすることができる。

　また、コンテンツ音とマスキング音の再生レベルに注目すると、暗騒音レベルが大きくなるほどコンテンツ音の再生レベルもマスキング音の再生レベルも大きくなっている。

　図１５に示す例では、例えば暗騒音の解析結果として暗騒音レベル、つまり暗騒音音圧「60dBA」が得られた場合、コンテンツ音が10dBで再生され、空調音と同様のマスキング音が3dBで再生されることになる。

　このような図１５に示すパラメータテーブルを用いる場合には、暗騒音レベルに応じてコンテンツ音の再生レベルが変化し、さらにそのコンテンツ音の再生レベルの変化分に応じてマスキング音の再生レベルが決定されるような制御が行われることになる。

　なお、パラメータテーブルを用いてマスキング音パラメータやゲイン係数（再生レベル）を決定する場合、暗騒音の解析結果等の外部センサの出力から得られる情報だけでなく、外部情報も組み合わせて用いるようにしてもよい。

　そのような場合、例えば暗騒音の解析結果と、外部情報との組み合わせに対して、コンテンツ音やマスキング音の再生レベル（ゲイン係数）と、マスキング音パラメータとが対応付けられたパラメータテーブルを用いるようにすることができる。換言すれば、暗騒音の解析結果と外部情報に基づいて、コンテンツ音やマスキング音のゲイン係数と、マスキング音パラメータが決定されるようにすることができる。

〈コンテンツ再生処理の説明〉
　以上のような図１４に示したコンテンツ再生システムでは、図１６に示すコンテンツ再生処理が行われる。すなわち、以下、図１６のフローチャートを参照して、図１４に示したコンテンツ再生システムによるコンテンツ再生処理について説明する。

　ステップＳ１０１において暗騒音解析部１３２は、供給されたコンテンツ音データに基づいて、コンテンツ音が無音となっている無音区間においてAD変換部１３１から供給された収録音、すなわち暗騒音の解析処理を行い、その解析結果をマスキング音生成部２１および再生レベル調整部２３に供給する。ここでは、暗騒音の解析結果として、例えば暗騒音レベルや周波数特性、振幅特性などが得られる。

　ステップＳ１０２においてマスキング音生成部２１は、暗騒音解析部１３２から供給された解析結果と、予め保持しているパラメータテーブルとに基づいてマスキング音を生成し、波面合成フィルタ部５１に供給する。

　例えばステップＳ１０２ではパラメータテーブルが参照されて、暗騒音の解析結果に対して対応付けられているマスキング音パラメータに基づいて、マスキング音が生成される。

　マスキング音が生成されると、その後、ステップＳ１０３においてマスキング音に対するフィルタリング処理が行われ、ステップＳ１０４においてコンテンツ音に対するフィルタリング処理が行われる。なお、これらの処理は図１１のステップＳ４２およびステップＳ４３の処理と同様であるので、その説明は省略する。

　ステップＳ１０５において再生レベル調整部２３は、供給されたコンテンツ音データおよび暗騒音解析部１３２から供給された解析結果の少なくとも何れか一方と、保持しているパラメータテーブルとに基づいて、マスキング音とコンテンツ音の再生レベルを決定する。

　例えばステップＳ１０５ではパラメータテーブルを参照して、暗騒音の解析結果に対応付けられているゲイン係数を特定することにより、コンテンツ音とマスキング音の再生レベル、すなわちゲイン係数が決定される。

　再生レベル調整部２３は、決定されたマスキング音用のゲイン係数を増幅部５２に供給するとともに、コンテンツ音用のゲイン係数を増幅部２５に供給する。

　再生レベルが決定されると、その後、ステップＳ１０６乃至ステップＳ１０８の処理が行われてコンテンツ再生処理は終了するが、これらの処理は図１１のステップＳ４５乃至ステップＳ４７の処理と同様であるので、その説明は省略する。

　以上のようにしてコンテンツ再生システムは、暗騒音の解析結果に基づいてマスキング音を生成するとともに、コンテンツ音やマスキング音の再生レベルを調整し、波面合成によってコンテンツ音とマスキング音を再生する。このようにすることで、簡単に漏れ音を聞こえにくくすることができる。

〈第４の実施の形態の変形例１〉
〈パラメータテーブルの他の例〉
　また、外部センサとしてマイクロホン１２１を利用する場合、マイクロホン１２１を複数の分割領域の間の領域に配置することもできる。そうすれば、各分割領域で再生されたコンテンツ音と、暗騒音と、マスキング音とが混ざった音をマイクロホン１２１により収録音として得ることができる。

　この場合、収録音を解析することによって、漏れ音を確実にマスキングするために、あとどれだけマスキング音を付加すればよいか、つまりマスキング音の再生レベルをどれだけ増加させればよいかを計算により求めることができる。

　具体的には、例えば暗騒音解析部１３２は、コンテンツ音をＳ（シグナル）とし、暗騒音とマスキング音の混合音をＮ（ノイズ）とする。すなわち、暗騒音解析部１３２はコンテンツ音が再生されているときの収録音の音圧と、コンテンツ音が再生されていないときの収録音の音圧との差をSN比として求める。

　そして暗騒音解析部１３２は、求めたSN比が0dBよりも大きい場合には、コンテンツ音のレベルが優位、すなわち漏れ音が発生しているのでマスキング音をさらに付加すると判定し、マスキング音の再生レベルを増加させる。

　これに対して、暗騒音解析部１３２は、求めたSN比が0dBよりも小さい場合には、マスキング音と暗騒音の混合音のレベルが優位、すなわち漏れ音はすでに聞こえない状態であると判定し、マスキング音の再生レベルを減少させる。

　このようにしてマスキング音の再生レベルを動的に変化させていけば、周囲の環境等に応じて適切な再生レベルでマスキング音を再生することができる。

　以上のようなマスキング音の再生レベルの調整制御は、例えば図１７に示すパラメータテーブルを用いることで実現することができる。

　図１７において文字「SN比」は、暗騒音解析部１３２での解析結果として得られた収録音の音圧に基づいて算出された上述のSN比を示している。

　また、文字「コンテンツ音再生レベル」は、コンテンツ音の再生レベル、すなわちコンテンツ音用のゲイン係数を示している。

　さらに文字「マスキング音再生レベルの変動」は、マスキング音の再生レベルの増減値を示しており、文字「マスキング音パラメータ」はマスキング音パラメータを示している。

　例えばマスキング音再生レベルの変動「-6dB」は、マスキング音の再生レベルを現在のレベルから-6dBだけ減少させることを示している。図１７に示す例では、SN比に応じてマスキング音の再生レベルが増減し、SN比が0dBである場合には、現時点のマスキング音の再生レベルが適切なレベルであるものとされ、その再生レベルが維持される。つまり増減値が0dBとされる。

　したがって再生レベル調整部２３は、パラメータテーブルを参照して、暗騒音解析部１３２から供給されたSN比に対応する増減値だけ、マスキング音の再生レベルを増減させる。すなわち再生レベル調整部２３は、マスキング音の再生レベルの増減値に応じて新たなマスキング音用のゲイン係数を決定し、その新たなゲイン係数を増幅部５２に供給する。

　このような図１７に示すパラメータテーブルがマスキング音生成部２１および再生レベル調整部２３に保持されている場合、図１６を参照して説明したコンテンツ再生処理のステップＳ１０１ではSN比が算出される。

　すなわち、暗騒音解析部１３２は、暗騒音解析として、コンテンツ音が再生されていないタイミングで得られた収録音と、コンテンツ音が再生されているタイミングで得られた収録音とに基づくSN比の算出を行い、得られたSN比をマスキング音生成部２１および再生レベル調整部２３に供給する。

　すると、ステップＳ１０２ではマスキング音生成部２１は、暗騒音解析部１３２から供給されたSN比と、保持しているパラメータテーブルとに基づいてマスキング音パラメータを決定し、その決定結果に従ってマスキング音を生成する。

　また、ステップＳ１０５では、再生レベル調整部２３は、暗騒音解析部１３２から供給されたSN比と、保持しているパラメータテーブルとに基づいてコンテンツ音とマスキング音の再生レベル、すなわちゲイン係数を決定する。

　例えば図１７に示した例では、コンテンツ音の再生レベルが常に20dBとなるようにコンテンツ音用のゲイン係数が決定される。また、マスキング音については、マスキング音の現時点での再生レベルと、SN比に対応する増減値とに対して定まる再生レベルに対応するゲイン係数に決定される。

　このようにSN比、つまりコンテンツ音と、暗騒音およびマスキング音の混合音との音圧の関係に応じてマスキング音の再生レベルを変動させることで、より適切な再生レベルでマスキング音を再生し、確実に漏れ音をマスキングすることができる。

　以上のようなSN比に基づくマスキング音の再生レベルの制御は、暗騒音レベル、より詳細には暗騒音とマスキング音のレベルと、コンテンツ音の再生レベルとの差に応じて、マスキング音の再生レベルを増減させる制御であるということができる。

　なお、ここではSN比とパラメータテーブルとを用いてマスキング音パラメータやマスキング音の再生レベルを決定する例について説明したが、予め機械学習により生成されたニューラルネットワーク等の予測器が用いられるようにしてもよい。

　その他、収録音の解析により暗騒音のレベルが得られる場合、暗騒音解析部１３２が周波数帯域ごとにコンテンツ音と暗騒音のレベルを比較し、その比較結果に応じて再生レベル調整部２３が周波数帯域ごとにマスキング音の再生レベルを決定してもよい。この場合、周波数帯域ごとにコンテンツ音が暗騒音を超えて漏れ出るレベルを推定することができるので、より確実に漏れ音を聴覚特性上でマスキングすることができるようになる。

〈第５の実施の形態〉
〈コンテンツ再生システムの構成例〉
　ところで、例えば上述した第４の実施の形態や、第４の実施の形態の変形例１では、無音区間となるタイミングの収録音から暗騒音レベルを算出したり、コンテンツ音が混入した収録音を解析に用いたりしていた。

　しかし、例えばコンテンツが音楽である場合など、コンテンツ音が持続し、無音区間がない、または無音区間が少ない場合には暗騒音のみを収録音として取得することは困難である。また、マイクロホン１２１を分割領域間の位置に設置することができない場合も想定される。

　そこで、コンテンツ音も含む収録音に対してエコーキャンセルを行うことにより、コンテンツ音が含まれていない収録音、つまり暗騒音のみを取得できるようにしてもよい。

　そのような場合、コンテンツ再生システムは、例えば図１８に示すように構成される。なお、図１８において図１４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１８に示すコンテンツ再生システムは、マイクロホン１２１、信号処理装置１１、およびスピーカアレイ１２を有している。

　また、図１８に示す信号処理装置１１の構成は、図１４に示した信号処理装置１１の構成に加えて新たにエコーキャンセル部１６１が設けられた構成となっており、その他の点では図１４の信号処理装置１１と同じ構成とされている。

　図１８に示す信号処理装置１１では、AD変換部１３１と暗騒音解析部１３２との間にエコーキャンセル部１６１が設けられている。

　エコーキャンセル部１６１は、供給されたコンテンツ音データに基づいて、AD変換部１３１から供給された収録音に対してエコーキャンセルを行い、エコーキャンセル後の収録音を暗騒音解析部１３２に供給する。

　エコーキャンセル部１６１では、エコーキャンセルフィルタにより収録音に対してフィルタリング処理を行うことで、収録音からコンテンツ音をキャンセルするエコーキャンセルが実現される。

　このとき、エコーキャンセル部１６１は、マイクロホン１２１で収音された収録音とコンテンツ音とを入力とし、収録音からコンテンツ音をキャンセル（消去）して暗騒音のみを出力するように、内部のエコーキャンセルフィルタを更新する。

　エコーキャンセルフィルタの更新アルゴリズムは、例えば一般的なLMS（Least Mean Square）やNLMS（Normalized LMS）などとすることができる。

　暗騒音解析部１３２は、エコーキャンセル部１６１から供給された収録音のレベル等の解析を行い、その解析結果をマスキング音生成部２１および再生レベル調整部２３に供給する。

　マスキング音生成部２１は、暗騒音解析部１３２から供給された解析結果に基づいてマスキング音を生成し、波面合成フィルタ部５１に供給する。例えばマスキング音生成部２１では、図１５に示したパラメータテーブルを用いたり、予め学習により得られた予測器を用いたりしてマスキング音を生成する。

　例えば再生レベル調整部２３は、暗騒音解析部１３２から供給された解析結果としての暗騒音レベルと、予め保持している図１５に示したパラメータテーブルとに基づいて、コンテンツ音の再生レベル、およびマスキング音の再生レベルを決定する。

〈コンテンツ再生処理の説明〉
　以上のような図１８に示したコンテンツ再生システムでは、図１９に示すコンテンツ再生処理が行われる。すなわち、以下、図１９のフローチャートを参照して、図１８に示したコンテンツ再生システムによるコンテンツ再生処理について説明する。

　ステップＳ１３１においてエコーキャンセル部１６１は、供給されたコンテンツ音データに基づいて、AD変換部１３１から供給された収録音に対してエコーキャンセルを行い、その結果得られたエコーキャンセル後の収録音を暗騒音解析部１３２に供給する。

　ステップＳ１３１では、任意のタイミングでマイクロホン１２１により収音された収録音に対してエコーキャンセルが行われる。これにより、収録音からコンテンツ音がキャンセルされ、暗騒音が取得（抽出）される。

　このようにして暗騒音が得られると、その後、ステップＳ１３２乃至ステップＳ１３９の処理が行われてコンテンツ再生処理は終了するが、これらの処理は図１６のステップＳ１０１乃至ステップＳ１０８の処理と同様であるので、その説明は省略する。

　以上のようにしてコンテンツ再生システムは、エコーキャンセルを行うことで暗騒音を取得し、暗騒音の解析結果に基づいてマスキング音を生成するとともに、コンテンツ音やマスキング音の再生レベルを調整する。また、コンテンツ再生システムは、適切にレベル調整が行われたコンテンツ音とマスキング音を波面合成によって再生する。このようにすることで、簡単に漏れ音を聞こえにくくすることができる。

〈その他の変形例〉
〈コンテンツ再生システムの構成例〉
　さらに、以上において説明した第１の実施の形態乃至第５の実施の形態においては、コンテンツ音とマスキング音とが１つのスピーカアレイ１２により再生される例について説明した。しかし、マスキング音とコンテンツ音とは、互いに異なるスピーカやスピーカアレイで再生されるようにしてもよいし、マスキング音のみを再生するスピーカやスピーカアレイが設けられるようにしてもよい。

　例えば図３に示した例において、スピーカアレイ１２に加えて、マスキング音のみを再生するためのスピーカを新たに設けた場合、コンテンツ再生システムは図２０に示すように構成される。なお、図２０において図３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図２０に示すコンテンツ再生システムは、信号処理装置１１、スピーカアレイ１２、およびスピーカ１９１を有している。

　このコンテンツ再生システムは、図３に示したコンテンツ再生システムの構成に加えて新たにスピーカ１９１が設けられた構成となっている。

　また、図２０に示す信号処理装置１１の構成は、図３に示した信号処理装置１１の構成に加えて新たにLPF（Low Pass Filter）２０１およびDA変換部２０２が設けられた構成となっており、その他の点では図３の信号処理装置１１と同じ構成とされている。

　図２０に示す信号処理装置１１では、増幅部２４から出力されたマスキング音は、加算部２６だけでなくLPF２０１にも供給される。

　LPF２０１は、LPF（ローパスフィルタ）であり、増幅部２４から供給されたマスキング音に対してローパスフィルタによるフィルタリング処理を行うことでマスキング音の低域成分のみを抽出し、DA変換部２０２に供給する。

　DA変換部２０２は、LPF２０１から供給されたマスキング音、より詳細にはマスキング音の低域成分に対してDA変換を行い、その結果得られたアナログ信号であるマスキング音をスピーカ１９１に供給して再生させる。この場合、DA変換部２０２は、マスキング音をスピーカ１９１から出力させる出力部として機能する。

　スピーカ１９１は、例えばスピーカアレイ１２を構成するスピーカと比較して径が大きい低域再生用のスピーカなどからなり、DA変換部２０２から供給されたマスキング音を出力（再生）する。

　特に、この例では、スピーカアレイ１２を構成するスピーカの径は、スピーカ１９１の径よりも小さくなっており、スピーカアレイ１２ではマスキング音の低域成分を十分な音圧で再生することが困難である。そこで、コンテンツ再生システムでは、スピーカアレイ１２によりマスキング音の中高域成分を再生し、スピーカ１９１でマスキング音の低域成分を再生するようになっている。

　なお、スピーカアレイ１２ではマスキング音の再生は行わず、スピーカ１９１でのみマスキング音を再生するようにしても勿論よい。このようにマスキング音の少なくとも低域成分を、コンテンツ音の再生用のスピーカアレイ１２とは異なる他のスピーカ１９１で再生することで、マスキング音を所望の周波数特性で再生することができる。

　以上のように、第１の実施の形態乃至その他の変形例において説明した本技術によれば、適切な再生レベルのマスキング音を再生することで、簡単に漏れ音を聞こえにくくすることができる。

　しかも本技術では、各分割領域において、他の分割領域からの漏れ込み音が聞こえにくくなるので、コンテンツ音の聴感上の分離度を向上させることができる。これにより、コンテンツの内容、つまりコンテンツにより提供される情報をより取得しやすくすることができる。

　一般的に、人の聴覚は小さな音でもそれが音声や音楽だと敏感に反応する。そのため、漏れ音がそのような音声や音楽である場合には、分割領域内にいる受聴者や、分割領域近傍にいる人には意識せずとも漏れ音が聞こえてしまい、不快に感じてしまう。そこで、本技術では、そのような漏れ音をマスキングすることにより、聴覚が漏れ音となったコンテンツ音に反応することがなくなるようにし、人が不快に感じることがないようにした。

　また、既存の技術では漏れ音を少なくするためにスピーカ数を多くする必要があったが、本技術では少ないスピーカ数でも漏れ音を聞こえにくくすることができるので、スピーカ数を少なくし、コストを削減することができる。

　さらに、本技術では、既存の技術のように音を打ち消す制御点にマイクロホンを設置する必要がなく、また外部センサとしてマイクロホンを用いる場合にもマイクロホン数は少なくて済む。したがって、コンテンツ再生システムの運用場所のレイアウトに自由度をもたせることができるだけでなく、マイクロホン等の機器のコストも削減することができる。

　その他、本技術では、コンテンツ音等を再生するスピーカの製造ばらつきや経年劣化、再生環境における音の反射および吸音によって、スピーカの音響ビームの放射特性にずれを生じた場合でも、そのずれにより生じる影響をマスキング音を再生することにより抑制（カバー）することができる。したがって、コンテンツ再生システムのメンテナンスのための時間や費用を削減することができる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図２１は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカアレイなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　スピーカアレイを用いた波面合成により、第１の領域で第１のコンテンツを再生し、第２の領域で第２のコンテンツを再生する場合に、前記第１の領域と前記第２の領域との間の領域において聞こえる前記第１のコンテンツの音および前記第２のコンテンツの音をマスキングするためのマスキング音を生成するマスキング音生成部を備える
　信号処理装置。
（２）
　前記スピーカアレイから前記マスキング音を出力させる出力部をさらに備える
　（１）に記載の信号処理装置。
（３）
　前記スピーカアレイとは異なるスピーカから前記マスキング音を出力させる出力部をさらに備える
　（１）または（２）に記載の信号処理装置。
（４）
　前記マスキング音の再生レベルは暗騒音のレベルよりも大きい
　（１）乃至（３）の何れか一項に記載の信号処理装置。
（５）
　前記マスキング音生成部により生成された前記マスキング音に対してフィルタリング処理を行うことで、波面合成により前記第１の領域と前記第２の領域との間のマスキング領域で前記マスキング音を再生するための複数の各チャンネルの音を生成する波面合成フィルタ部をさらに備える
　（１）乃至（４）の何れか一項に記載の信号処理装置。
（６）
　前記マスキング音生成部は、外部情報に基づいて前記マスキング音を生成する
　（１）乃至（５）の何れか一項に記載の信号処理装置。
（７）
　前記外部情報は、時間帯、曜日、来場者数、および天候のうちの少なくとも何れか１つを示す情報である
　（６）に記載の信号処理装置。
（８）
　少なくとも前記第１の領域および前記第２の領域の周囲の領域を被写体として含む画像から人を検出する検出部をさらに備え、
　前記マスキング音生成部は、前記検出部による人の検出結果に基づいて前記マスキング音を生成する
　（１）乃至（５）の何れか一項に記載の信号処理装置。
（９）
　周囲の暗騒音の特性を解析する解析部をさらに備え、
　前記マスキング音生成部は、前記特性の解析結果に基づいて前記マスキング音を生成する
　（１）乃至（５）の何れか一項に記載の信号処理装置。
（１０）
　前記マスキング音生成部は、前記特性の解析結果に応じた周波数特性の前記マスキング音を生成する
　（９）に記載の信号処理装置。
（１１）
　前記特性の解析結果に基づいて前記マスキング音の再生レベルを調整させる再生レベル調整部をさらに備える
　（９）または（１０）に記載の信号処理装置。
（１２）
　収音された周囲の音に対して、前記第１のコンテンツの音および前記第２のコンテンツの音に基づくエコーキャンセルを行うことで、前記暗騒音を抽出するエコーキャンセル部をさらに備える
　（９）乃至（１１）の何れか一項に記載の信号処理装置。
（１３）
　前記マスキング音生成部は、前記第１のコンテンツおよび前記第２のコンテンツの周波数特性に応じて、前記マスキング音の周波数特性を変化させる
　（１）乃至（１２）の何れか一項に記載の信号処理装置。
（１４）
　前記第１のコンテンツおよび前記第２のコンテンツの再生レベルに応じて、前記マスキング音の再生レベルを変化させる再生レベル調整部をさらに備える
　（１）乃至（１３）の何れか一項に記載の信号処理装置。
（１５）
　信号処理装置が、
　スピーカアレイを用いた波面合成により、第１の領域で第１のコンテンツを再生し、第２の領域で第２のコンテンツを再生する場合に、前記第１の領域と前記第２の領域との間の領域において聞こえる前記第１のコンテンツの音および前記第２のコンテンツの音をマスキングするためのマスキング音を生成する
　信号処理方法。
（１６）
　スピーカアレイを用いた波面合成により、第１の領域で第１のコンテンツを再生し、第２の領域で第２のコンテンツを再生する場合に、前記第１の領域と前記第２の領域との間の領域において聞こえる前記第１のコンテンツの音および前記第２のコンテンツの音をマスキングするためのマスキング音を生成する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　信号処理装置，　１２　スピーカアレイ，　２１　マスキング音生成部，　２２　波面合成フィルタ部，　２３　再生レベル調整部，　２４　増幅部，　２５　増幅部，　５１　波面合成フィルタ部，　９１　認識部，　１２１　マイクロホン，　１３２　暗騒音解析部，　１６１　エコーキャンセル部

Claims

　スピーカアレイを用いた波面合成により、第１の領域で第１のコンテンツを再生し、第２の領域で第２のコンテンツを再生する場合に、前記第１の領域と前記第２の領域との間の領域において聞こえる前記第１のコンテンツの音および前記第２のコンテンツの音をマスキングするためのマスキング音を生成するマスキング音生成部を備える
　信号処理装置。
　前記スピーカアレイから前記マスキング音を出力させる出力部をさらに備える
　請求項１に記載の信号処理装置。
　前記スピーカアレイとは異なるスピーカから前記マスキング音を出力させる出力部をさらに備える
　請求項１に記載の信号処理装置。
　前記マスキング音の再生レベルは暗騒音のレベルよりも大きい
　請求項１に記載の信号処理装置。
　前記マスキング音生成部により生成された前記マスキング音に対してフィルタリング処理を行うことで、波面合成により前記第１の領域と前記第２の領域との間のマスキング領域で前記マスキング音を再生するための複数の各チャンネルの音を生成する波面合成フィルタ部をさらに備える
　請求項１に記載の信号処理装置。
　前記マスキング音生成部は、外部情報に基づいて前記マスキング音を生成する
　請求項１に記載の信号処理装置。
　前記外部情報は、時間帯、曜日、来場者数、および天候のうちの少なくとも何れか１つを示す情報である
　請求項６に記載の信号処理装置。
　少なくとも前記第１の領域および前記第２の領域の周囲の領域を被写体として含む画像から人を検出する検出部をさらに備え、
　前記マスキング音生成部は、前記検出部による人の検出結果に基づいて前記マスキング音を生成する
　請求項１に記載の信号処理装置。
　周囲の暗騒音の特性を解析する解析部をさらに備え、
　前記マスキング音生成部は、前記特性の解析結果に基づいて前記マスキング音を生成する
　請求項１に記載の信号処理装置。
　前記マスキング音生成部は、前記特性の解析結果に応じた周波数特性の前記マスキング音を生成する
　請求項９に記載の信号処理装置。
　前記特性の解析結果に基づいて前記マスキング音の再生レベルを調整させる再生レベル調整部をさらに備える
　請求項９に記載の信号処理装置。
　収音された周囲の音に対して、前記第１のコンテンツの音および前記第２のコンテンツの音に基づくエコーキャンセルを行うことで、前記暗騒音を抽出するエコーキャンセル部をさらに備える
　請求項９に記載の信号処理装置。
　前記マスキング音生成部は、前記第１のコンテンツおよび前記第２のコンテンツの周波数特性に応じて、前記マスキング音の周波数特性を変化させる
　請求項１に記載の信号処理装置。
　前記第１のコンテンツおよび前記第２のコンテンツの再生レベルに応じて、前記マスキング音の再生レベルを変化させる再生レベル調整部をさらに備える
　請求項１に記載の信号処理装置。
　信号処理装置が、
　スピーカアレイを用いた波面合成により、第１の領域で第１のコンテンツを再生し、第２の領域で第２のコンテンツを再生する場合に、前記第１の領域と前記第２の領域との間の領域において聞こえる前記第１のコンテンツの音および前記第２のコンテンツの音をマスキングするためのマスキング音を生成する
　信号処理方法。
　スピーカアレイを用いた波面合成により、第１の領域で第１のコンテンツを再生し、第２の領域で第２のコンテンツを再生する場合に、前記第１の領域と前記第２の領域との間の領域において聞こえる前記第１のコンテンツの音および前記第２のコンテンツの音をマスキングするためのマスキング音を生成する
　ステップを含む処理をコンピュータに実行させるプログラム。