WO2020036058A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2020036058A1
WO2020036058A1 PCT/JP2019/029813 JP2019029813W WO2020036058A1 WO 2020036058 A1 WO2020036058 A1 WO 2020036058A1 JP 2019029813 W JP2019029813 W JP 2019029813W WO 2020036058 A1 WO2020036058 A1 WO 2020036058A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
content
masking
masking sound
region
Prior art date
Application number
PCT/JP2019/029813
Other languages
English (en)
French (fr)
Inventor
慶一 大迫
祐基 光藤
将文 高橋
由楽 池宮
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2020537402A priority Critical patent/JPWO2020036058A1/ja
Priority to EP19849690.3A priority patent/EP3839941A4/en
Priority to US17/266,486 priority patent/US11462200B2/en
Priority to KR1020217002890A priority patent/KR20210043565A/ko
Priority to CN201980051268.9A priority patent/CN112513977A/zh
Publication of WO2020036058A1 publication Critical patent/WO2020036058A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/323Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2203/00Details of circuits for transducers, loudspeakers or microphones covered by H04R3/00 but not provided for in any of its subgroups
    • H04R2203/12Beamforming aspects for stereophonic sound reproduction with loudspeaker arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/25Array processing for suppression of unwanted side-lobes in directivity characteristics, e.g. a blocking matrix
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Definitions

  • the present technology relates to a signal processing device, a signal processing method, and a program, and more particularly, to a signal processing device, a method, and a program that can easily make sound leakage hard to hear.
  • the wavefront synthesis filter unit 22 may generate a wavefront synthesis filter.
  • the wavefront synthesis is described in, for example, JP-A-2013-102389 and "Berkhout, Augustinus J., Diemer de Vries, and Peter Vogel.” "Acoustic control by wave field field synthesis.” : ⁇ 2764-2778. ".
  • the wavefront synthesis filter unit 22 may use the technology described in these documents and the like.
  • the masking sound generation unit 21 generates a masking sound according to the supplied external information, and the reproduction level adjustment unit 23 controls the reproduction levels of the masking sound and the content sound according to the external information.
  • the masking sound generation unit 21 stores each masking sound parameter together with such a parameter table in advance.
  • the content reproduction system when used outdoors with a roof and weather information is used as external information, when the weather indicated by the weather information is rain, the leak sound is masked to some extent by the rain sound included in the background noise. Is done.
  • step S11 the masking sound generation unit 21 generates a masking sound based on external information supplied from outside and a parameter table stored in advance, and supplies the masking sound to the amplification unit 24.
  • step S12 the wavefront synthesis filter unit 22 performs a filtering process on the supplied content sound data using the wavefront synthesis filter, and supplies the resulting output sound of each channel to the amplification unit 25.
  • step S16 the DA converter 27 performs DA conversion on the output sound of each channel supplied from the adder 26, and outputs the resulting output sound of each channel corresponding to each channel of the speaker array 12. The content sound is supplied to the speaker and reproduced.
  • the masking sound generation unit 21 converts the Gaussian noise into the masking sound. Generate as This is because as the number of noise sources increases, the background noise composed of the sounds of those noise sources approaches Gaussian noise.
  • the content reproduction system generates the masking sound based on the analysis result of the background noise, adjusts the reproduction level of the content sound and the masking sound, and reproduces the content sound and the masking sound by wavefront synthesis. By doing so, it is possible to easily make the leak sound inaudible.
  • the CPU 501 loads the program recorded in the recording unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the program, for example. Is performed.
  • the present technology may have the following configurations.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本技術は、簡単に漏れ音を聞こえにくくすることができるようにする信号処理装置および方法、並びにプログラムに関する。 信号処理装置は、スピーカアレイを用いた波面合成により、第1の領域で第1のコンテンツを再生し、第2の領域で第2のコンテンツを再生する場合に、第1の領域と第2の領域との間の領域において聞こえる第1のコンテンツの音および第2のコンテンツの音をマスキングするためのマスキング音を生成するマスキング音生成部を備える。本技術はコンテンツ再生システムに適用することができる。

Description

信号処理装置および方法、並びにプログラム
 本技術は、信号処理装置および方法、並びにプログラムに関し、特に、簡単に漏れ音を聞こえにくくすることができるようにした信号処理装置および方法、並びにプログラムに関する。
 近年、波面合成技術を利用したマルチゾーン再生が知られている。マルチゾーン再生では、複数に区切られたエリア(領域)ごとに再生音圧を任意に変えることで、聞こえる音の空間分割が実現されている。
 このようなマルチゾーン再生を用いれば、例えば美術館の絵画の前の領域でのみ、その絵画についての音声ガイドが聞こえるようにし、それ以外の領域では何も音が聞こえないようにすることができる。
 また、例えば空港や駅などの公共施設において、複数の領域ごとに施設利用者に向けて互いに異なる言語での音声情報の提示を行うことも可能である。
 ところで、マルチゾーン再生においては、受聴者が所定の領域で提示されている音を聞いているときに他の領域の音が漏れ聞こえてくると、受聴者による音情報の取得が著しく困難となってしまうため、対象とする領域内のみで音が聞こえることが重要である。換言すれば、対象とする領域の境界周辺において音が漏れ聞こえないようにすることが求められている。
 そこで、例えば一対のスピーカを、それらのスピーカ間の距離が放射音波の8分の1波長から1波長となるように配置して、それらのスピーカからの音波同士を干渉させることで音を打ち消す技術が提案されている(例えば、特許文献1参照)。
 特許文献1では、スピーカ対の前方に設けたマイクロホンの検知出力に基づいて音を打ち消すために用いるフィルタが調整される。そして、得られたフィルタによりフィルタリング処理した音響信号に基づいてスピーカ対から音波を出力することで、マイクロホンが配置された制御点において音波の干渉による打ち消しが実現される。
 また、センサを用いて予め定められた案内領域内への利用者の移動を認識し、利用者が案内領域内に入ると、所定のフィルタによりフィルタリング処理された音響信号に基づいて案内領域に対応する音声を再生する技術も提案されている(例えば、特許文献2参照)。
 特許文献2では、複数の制御点における観測信号が所望の平面波となるようにフィルタを生成することで、広がりが抑えられた平面波を発生させ、案内領域内での音声再生を実現することができる。
特開2000-295697号公報 特開2017-161448号公報
 しかしながら上述した技術では、対象とする領域外へと漏れ出してくる漏れ音を簡単に聞こえにくくすることは困難であった。
 例えば特許文献1に記載の技術では、マイクロホンが設置される制御点においては音が打ち消されるが、制御点以外の位置では音の漏れ出しが生じてしまう。特に、制御点から遠くなるほど音の漏れ出しが大きくなってしまう。
 また、例えば特許文献2に記載の技術では、1つの案内領域を形成するのに多数の制御点が必要となるが、原理上作り出せる制御点の数は、音声再生に用いるスピーカアレイを構成するスピーカの数より1以上少ない数となる。そのため、1つの案内領域を形成するためには大量のスピーカが必要となってしまう。
 本技術は、このような状況に鑑みてなされたものであり、簡単に漏れ音を聞こえにくくすることができるようにするものである。
 本技術の一側面の信号処理装置は、スピーカアレイを用いた波面合成により、第1の領域で第1のコンテンツを再生し、第2の領域で第2のコンテンツを再生する場合に、前記第1の領域と前記第2の領域との間の領域において聞こえる前記第1のコンテンツの音および前記第2のコンテンツの音をマスキングするためのマスキング音を生成するマスキング音生成部を備える。
 本技術の一側面の信号処理方法またはプログラムは、スピーカアレイを用いた波面合成により、第1の領域で第1のコンテンツを再生し、第2の領域で第2のコンテンツを再生する場合に、前記第1の領域と前記第2の領域との間の領域において聞こえる前記第1のコンテンツの音および前記第2のコンテンツの音をマスキングするためのマスキング音を生成するステップを含む。
 本技術の一側面においては、スピーカアレイを用いた波面合成により、第1の領域で第1のコンテンツを再生し、第2の領域で第2のコンテンツを再生する場合に、前記第1の領域と前記第2の領域との間の領域において聞こえる前記第1のコンテンツの音および前記第2のコンテンツの音をマスキングするためのマスキング音が生成される。
 本技術の一側面によれば、簡単に漏れ音を聞こえにくくすることができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
マルチゾーン再生について説明する図である。 コンテンツ音と暗騒音の音圧分布について説明する図である。 コンテンツ再生システムの構成例を示す図である。 パラメータテーブルの例を示す図である。 分割領域とマスキング音の再生範囲について説明する図である。 コンテンツ音とマスキング音の音圧分布について説明する図である。 コンテンツ再生処理を説明するフローチャートである。 コンテンツ再生システムの構成例を示す図である。 分割領域とマスキング領域について説明する図である。 コンテンツ音とマスキング音の音圧分布について説明する図である。 コンテンツ再生処理を説明するフローチャートである。 コンテンツ再生システムの構成例を示す図である。 コンテンツ再生処理を説明するフローチャートである。 コンテンツ再生システムの構成例を示す図である。 パラメータテーブルの例を示す図である。 コンテンツ再生処理を説明するフローチャートである。 パラメータテーブルの例を示す図である。 コンテンツ再生システムの構成例を示す図である。 コンテンツ再生処理を説明するフローチャートである。 コンテンツ再生システムの構成例を示す図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 本技術は、互いに異なる領域で異なるコンテンツの音を再生する場合に、それらの領域の間にある領域において、所定レベルのマスキング音により各コンテンツの音をマスキングすることで、簡単に漏れ音を聞こえにくくすることができるようにするものである。
 まず、マルチゾーン再生における漏れ音について説明する。
 例えば図1に示すようにスピーカアレイSP11を用いてマルチゾーン再生を行うことを考える。なお、ここでは説明を簡単にするため、音を打ち消す位置、つまり無音とする位置である制御点は描かれていない。
 いま、波面合成によって領域AにおいてコンテンツA、つまりコンテンツAの音を再生し、領域BにおいてコンテンツBを再生することとする。
 ここでは、分割領域R11がコンテンツAを聞かせたい受聴エリアとなる領域Aとなっており、分割領域R12がコンテンツBを聞かせたい受聴エリアとなる領域Bとなっている。以下では、コンテンツを聞かせたい領域、すなわちコンテンツの受聴エリアを特に分割領域とも称することとする。
 また、コンテンツAとコンテンツBは互いに異なる音楽や音声などとされる。なお、以下、所定のコンテンツの音をコンテンツ音とも称することとする。
 例えばコンテンツAとコンテンツBが同時に再生されている場合、図中の直線L11により示されるx軸上における音圧分布は図2に示すようになる。なお、図2において横軸はx軸方向における位置を示しており、縦軸は各位置における音圧を示している。
 図2に示す例では、曲線L21はコンテンツAの音の音圧分布を示しており、曲線L22はコンテンツBの音の音圧分布を示している。
 また、直線L23はスピーカアレイSP11の周囲における暗騒音の音圧レベルを示している。暗騒音には、例えばスピーカアレイSP11近傍、すなわち周囲の環境を行き交う人々の声や足音、空調の音など、周囲にあるあらゆる音源からの音が含まれるものとする。
 通常、領域Aや領域BにおいてはコンテンツAやコンテンツBの音は、受聴者に聞き取りやすいレベルにするために暗騒音レベルよりも大きな音圧で再生される。
 具体的には、例えば暗騒音が60dB程度である場合には、コンテンツAやコンテンツBの音は80dBなどで再生される。
 このとき、分割領域からの漏れ音が、その分割領域の境界付近で発生する。
 なお、ここでいう漏れ音とは、分割領域から漏れ出して聞こえてしまうコンテンツ音である。すなわち、分割領域外において聞こえてしまうコンテンツ音が漏れ音である。
 例えば図2の例では、点線CR11で囲まれる部分におけるコンテンツAやコンテンツBの音が、分割領域である領域Aと領域Bの間にある領域、つまり分割領域外の領域において聞こえる漏れ音となる。
 特に点線CR11で囲まれる部分においては、コンテンツAやコンテンツBの音圧は、直線L23により示される暗騒音レベルよりも大きく、それらのコンテンツ音が分割領域外にいる人にも聞こえてしまうことになる。
 また、図2の例では点線CR12で囲まれる部分は領域Aの内部の領域であるが、この領域ではコンテンツBの音圧が暗騒音レベルよりも大きくなっている。そのため、領域A内における領域B側の境界付近では、コンテンツAだけでなくコンテンツBの音も受聴者に漏れ聞こえてしまう。つまり、コンテンツBの音が領域Aに漏れ込んでしまう。
 同様に点線CR13で囲まれる部分は領域Bの内部の領域であるが、この領域ではコンテンツAの音圧が暗騒音レベルよりも大きくなっており、コンテンツAの音が領域Bにおいて漏れ聞こえてしまう。
 このような漏れ音は、分割領域でのコンテンツ音が小さかったり、無音区間であったりする場合に、他の分割領域でのコンテンツ音が大きいと受聴者に聞こえてしまう。
 一般的に、漏れ聞こえる音が音声や音楽である場合、人の聴覚はそれらの音に対して注意をひかれるので、漏れ音が中途半端に聞こえてしまうと不快に感じることになる。
 このようにマルチゾーン再生においては、分割領域間でのコンテンツ音の漏れ込みや、分割領域外の領域でのコンテンツ音の漏れを小さくするなどして人が漏れ音を知覚できないようにする必要があり、そのために上述した特許文献1や特許文献2が提案されている。
 しかしながら、既存の技術では、複数スピーカを用いたマルチゾーン再生において、簡単に漏れ音を聞こえにくくすることは困難であった。
 例えば特許文献1では、音を打ち消す位置である制御点以外の領域では漏れ音となるコンテンツ音を打ち消すことができず、制御点周辺において意図しないコンテンツ音が漏れ聞こえてしまう。
 なお、特許文献1では制御点を増やすことは可能であるが、分割領域外で漏れ音を聞こえにくくするためには膨大な数のスピーカとマイクロホンが必要となってしまう。しかも制御点にマイクロホンを設置しなければならないため、制御点の増加は実空間での運用時にマイクロホン等のレイアウトの阻害要因となる。
 また、特許文献2においてもコンテンツ音の漏れ込みを小さくするには膨大な数のスピーカが必要となってしまう。
 そこで本技術では、波面合成技術を用いてマルチゾーン再生を行う場合、つまり再生空間を複数の分割領域に分割して、それらの分割領域で異なるコンテンツを再生する場合に、コンテンツ音だけでなくマスキング音も同時に出力するようにした。これにより、スピーカ数を増加させたり、膨大な数のマイクロホンを用いたりすることなく簡単に漏れ音を聞こえにくくすることができる。
 なお、マスキング音の再生レベルを決定するにあたっては、例えば外部情報や外部センサなどを利用することが可能である。
 例えば外部情報として、コンテンツの再生を行う施設や会場の来場者数(入場者数)を示す来場者数情報や、コンテンツの再生を行う時間帯を示す時間帯情報、コンテンツ再生時の天気(天候)を示す天候情報などを用いることができる。
 このような外部情報を用いれば、コンテンツ再生時における人の数や時間帯、天候などに応じた適切なレベルのマスキング音を出力し、漏れ音となったコンテンツ音をマスキングすることができる。すなわち、マスキング音により漏れ音を聞こえにくくすることができる。
 また、マスキング音の再生レベルの決定に用いる外部センサとして、例えばマイクロホンやカメラなどを採用することができる。
 例えばマイクロホンを用いれば周囲の暗騒音のレベルを推定することができるので、その暗騒音のレベルに応じて、マスキング音の再生レベルを適切に決定することができる。
 同様に、カメラを用いれば周囲にいる人の数を推定することができるので、その推定結果に応じて、マスキング音の再生レベルを適切に決定することができる。
 なお、外部情報や外部センサは、マスキング音の再生レベルの決定だけでなく、マスキング音の周波数特性等の特性の決定にも用いることが可能である。
 また、分割領域内におけるコンテンツ音の再生レベルの変動に応じてマスキング音の再生レベルも変動させるようにしてもよい。
 例えば外部センサとしてマイクロホンを用いる場合、マイクロホンを利用して周囲の暗騒音のレベルを検知することができる。そこで、暗騒音のレベルの検知結果に応じてコンテンツ音の再生レベルを変化させるとともに、そのコンテンツ音の再生レベルの変化分に応じてマスキング音の再生レベルを決定すればよい。
 具体的には、例えばコンテンツ音の再生レベルが大きいときにはマスキング音の再生レベルも大きくし、逆にコンテンツ音の再生レベルが小さいときにはマスキング音の再生レベルも小さくすることが考えられる。
 また、コンテンツ音の再生レベルと暗騒音のレベルの差が大きいときにはマスキング音の再生レベルを大きくし、逆にコンテンツ音の再生レベルと暗騒音のレベルの差が小さいときにはマスキング音の再生レベルを小さくすることも考えられる。
 これは、コンテンツ音の再生レベルと暗騒音のレベルの差が大きいときにはコンテンツ音が大きく聞こえるので、その分だけマスキング音の再生レベルも大きくすると、より漏れ音が聞こえにくくなるためである。
 さらに、周波数帯域ごとにコンテンツ音と暗騒音のレベルを比較するなどして、各周波数帯域においてコンテンツ音が暗騒音を超えて漏れ出るレベルを推定し、その推定結果に応じて、漏れ音を聴覚特性上でマスキングできるように周波数帯域ごとにマスキング音の再生レベルを決定してもよい。
 その他、外部センサとしてのマイクロホンを利用して周囲の暗騒音のレベルを検知し、その検知結果に基づいてマスキング音の再生レベルを決定するようにしてもよい。この場合、コンテンツ音の再生レベルは特に変化させないようにすることができる。
 具体的には、例えば暗騒音のレベルが大きいときには漏れ音は聞こえにくいのでマスキング音の再生レベルを小さくし、逆に暗騒音のレベルが小さいときにはマスキング音の再生レベルを大きくすることが考えられる。
 なお、上述の外部情報を用いたマスキング音の再生レベル制御や、外部センサを用いたマスキング音の再生レベル制御、コンテンツ音の再生レベルに応じたマスキング音の再生レベル制御などを任意に組み合わせてマスキング音の再生レベルや特性を決定してもよい。
 そのような場合、例えば外部情報や、外部センサを用いて得られる情報などの組み合わせと、それらの各組み合わせに対するコンテンツ音の再生レベルおよびマスキング音の再生レベルとを対応付けたパラメータテーブルを予め用意しておくこともできる。そうすれば、例えばパラメータテーブルを用いてコンテンツ音の再生レベルとマスキング音の再生レベルを簡単かつ適切に決定することが可能である。
 その他、コンテンツ音やマスキング音の再生レベルの決定には、例えば外部情報や、外部センサを用いて得られる情報などを入力とし、その入力に対して適切なコンテンツ音の再生レベルおよびマスキング音の再生レベルを出力する予測器を用いてもよい。そのような予測器は、例えばニューラルネットワークに代表される機械学習により予め生成しておけばよい。
 さらに、漏れ音が小さく、聴感上、人が漏れ音を検知できないような状況では、マスキング音を再生(出力)しないようにしてもよい。
 また、暗騒音のレベルを考慮すると、マスキング音の再生レベルをより適切に決定することができる。これは、漏れ音をマスキングするためにはマスキング音の再生レベルを暗騒音のレベルよりも大きくするのがよいためである。
 例えばマスキング音の再生レベルの決定に外部情報を用いる場合、その外部情報から暗騒音のレベルを推定することができる。そこで、例えば与えられた外部情報に対して予め定められた再生レベルをマスキング音の再生レベルとして用いるようにすれば、外部情報に対して推定される暗騒音のレベル以上のレベルでマスキング音を再生することができる。
 また、外部センサとしてカメラを利用する場合、例えばカメラにより撮影された画像に対して顔認識や人物検出を行って、コンテンツを再生するスピーカの近くにいる人の数を推定するとともに、その推定結果に対して予め定められたレベルを暗騒音のレベルとすることができる。そのような場合、暗騒音のレベルに対して、適切にマスキング音の再生レベルを決定することができるようになる。
 さらに、外部センサとしてマイクロホンを用いる場合には、そのマイクロホンにより周囲の音を収音することができる。このような収音により得られた音には、少なくとも暗騒音が含まれているが、収音のタイミングによってはコンテンツ音も含まれてしまう。
 そこで、コンテンツ音の無音区間にのみマイクロホンによる収音を行い、収音により得られた音を暗騒音とすることで、暗騒音のレベルをより正確に推定することができる。
 その他、外部センサとしてマイクロホンを用いる場合、エコーキャンセルを利用して、収音された音から再生中のコンテンツ音をキャンセルし、暗騒音のみを抽出してもよい。この場合においても正確に暗騒音のレベルを推定することができる。
 さらに、漏れ音をマスキングするためのマスキング音の周波数特性等の特性は、雑踏ノイズやバブルノイズ、ピンクノイズなどと同じ特性とすることができる。このようにすることで、違和感を生じさせずに漏れ音をマスキングすることができる。
 その他、マスキング音の周波数特性は、外部センサとしてのマイクロホンにより収音された音と同じ周波数特性とするようにしてもよい。また、マスキング音の特性は、コンテンツ音の特徴を消すような特性、つまりコンテンツ音を聞き取りにくくする特性としてもよい。
 さらに、マスキング音を再生する領域は、コンテンツを再生するシステムが音を再生することが可能な領域全体としてもよい。
 また、波面合成を利用して指向性を有する音響ビームをマスキング音の音響ビーム(波面)として生成することで、複数の分割領域間の領域においてのみマスキング音が再生されるようにしたり、複数の分割領域間の領域と、各分割領域内における境界近傍の領域とでマスキング音が再生されるようにしたりしてもよい。
 さらに、外部センサとしてマイクロホンを使用する場合には、基本的にはマイクロホンはどこに設置してもよいが、例えば波面合成によって形成される分割領域外にマイクロホンを設置すれば、暗騒音と漏れ音のレベルを直接推定することができる。
〈コンテンツ再生システムの構成例〉
 次に、以上において説明した本技術のより具体的な実施の形態について説明する。
 図3は、本技術を適用したコンテンツ再生システムの一実施の形態の構成例を示す図である。
 図3に示すコンテンツ再生システムは、信号処理装置11およびスピーカアレイ12を有している。
 信号処理装置11は、コンテンツ音とマスキング音を再生するための出力音、より詳細には出力音の音響信号を生成し、スピーカアレイ12に供給する。
 スピーカアレイ12は、例えば複数のスピーカにより構成される直線スピーカアレイ、環状スピーカアレイ、球状スピーカアレイなどからなる。なお、スピーカアレイ12は、どのような形状のスピーカアレイであってもよい。
 スピーカアレイ12は、信号処理装置11から供給された出力音を出力することで複数のコンテンツ音と、各位置において目的としないコンテンツ音、すなわち漏れ音をマスキングするためのマスキング音とを再生する。
 これにより、波面合成により再生空間内の各分割領域でそれらの分割領域に対応するコンテンツ音がマルチゾーン再生されるとともに、再生空間の全域でマスキング音が再生される。マルチゾーン再生では、スピーカアレイ12が出力音を出力することで、再生空間における分割領域にコンテンツ音の波面が形成される。
 なお、以下では、スピーカアレイ12により音を再生可能な空間全体を再生空間と称することとする。また、ここでは再生空間で再生されるコンテンツや、各コンテンツ音が再生される分割領域の位置および大きさは予め定められているものとする。しかし、再生されるコンテンツや分割領域の位置および大きさが予め定められておらず、動的に変化するようにしてもよい。
 信号処理装置11はマスキング音生成部21、波面合成フィルタ部22、再生レベル調整部23、増幅部24、増幅部25、加算部26、およびDA(Digital to Analog)変換部27を有している。
 マスキング音生成部21は、外部から供給された外部情報に基づいてマスキング音を生成し、増幅部24に供給する。
 波面合成フィルタ部22は、例えば波面合成によりコンテンツを分割領域でのみ再生するための波面合成フィルタを予め有している。
 なお、波面合成フィルタ部22が波面合成フィルタを生成するようにしてもよい。
 波面合成フィルタの生成時には、例えばコンテンツ音を再生する分割領域の位置や大きさを示す座標情報、スピーカアレイ12を構成する各スピーカの配置位置などに基づく演算により波面合成フィルタが生成される。
 このような波面合成フィルタを用いた波面合成では、波面合成フィルタによるフィルタリング処理によって、スピーカアレイ12を構成する各スピーカから出力する出力音の振幅と位相を制御することで、再生空間内における音の波面が物理的に再現される。すなわち、分割領域でのみコンテンツ音の波面が形成される。
 波面合成については、例えば特開2013-102389号公報や「Berkhout, Augustinus J., Diemer de Vries, and Peter Vogel. "Acoustic control by wave field synthesis." The Journal of the Acoustical Society of America 93.5 (1993): 2764-2778.」などに詳細に記載されている。例えば波面合成フィルタ部22では、これらの文献に記載の技術等を利用すればよい。
 波面合成フィルタ部22は、供給されたコンテンツ音データ、すなわちコンテンツ音を再生するための音響信号に対して波面合成フィルタによるフィルタリング処理を行い、その結果得られたスピーカアレイ12を構成する各スピーカに対応する各チャンネルの出力音を増幅部25に供給する。
 より詳細には、波面合成フィルタ部22は、コンテンツごとに波面合成フィルタを有しており、各コンテンツについて、波面合成フィルタによるコンテンツ音データのフィルタリング処理を行う。そして波面合成フィルタ部22は、チャンネルごとに、フィルタリング処理により得られた各コンテンツのコンテンツ音を加算し、各コンテンツ音を含む出力音とする。すなわち、同じチャンネルについて得られた各コンテンツ音の音響信号が加算されて、そのチャンネルの出力音の音響信号とされる。
 再生レベル調整部23は、外部から供給された外部情報、および供給されたコンテンツ音データの少なくとも何れか一方に基づいて、マスキング音とコンテンツ音の再生レベルの調整を制御する。
 すなわち、再生レベル調整部23は、外部情報とコンテンツ音データの少なくとも何れか一方に基づいてマスキング音の再生レベルを決定し、決定された再生レベルでマスキング音を再生させるためのマスキング音用のゲイン係数を増幅部24に供給する。
 同様に、再生レベル調整部23は、外部情報とコンテンツ音データの少なくとも何れか一方に基づいてコンテンツ音の再生レベルを決定し、決定された再生レベルでコンテンツ音を再生させるためのコンテンツ音用のゲイン係数を増幅部25に供給する。
 増幅部24は、増幅器からなり、マスキング音生成部21から供給されたマスキング音に対して、再生レベル調整部23から供給されたマスキング音用のゲイン係数を乗算することでマスキング音のレベル調整(ゲイン調整)を行う。増幅部24は、レベル調整後のマスキング音を加算部26へと供給する。
 増幅部25は、例えばスピーカアレイ12を構成する各スピーカに対応するチャンネルごとに設けられた増幅器からなる。
 増幅部25は、波面合成フィルタ部22から供給された各チャンネルの出力音に対して、再生レベル調整部23から供給されたコンテンツ音用のゲイン係数を乗算することで出力音、すなわちコンテンツ音のレベル調整(ゲイン調整)を行う。増幅部25は、レベル調整後の出力音を加算部26へと供給する。
 加算部26は、例えばスピーカアレイ12を構成する各スピーカに対応するチャンネルごとに設けられた加算器からなる。
 加算部26は、増幅部25から供給された各チャンネルの出力音に対して、増幅部24から供給されたマスキング音を加算することで、最終的な各チャンネルの出力音を生成し、DA変換部27に供給する。
 DA変換部27は、加算部26から供給された各チャンネルの出力音に対してDA変換を行い、その結果得られた各チャンネルのアナログ信号である出力音の音響信号を、スピーカアレイ12を構成する各チャンネルに対応するスピーカに供給し、出力音を出力(再生)させる。したがってDA変換部27は、コンテンツ音とともに、マスキング音をスピーカアレイ12から出力させる出力部として機能するということができる。
〈マスキング音の生成および再生レベルの調整について〉
 ここで、信号処理装置11におけるマスキング音の生成や再生レベルの調整について説明する。
 マスキング音生成部21および再生レベル調整部23に供給される外部情報は、例えば上述した来場者数情報、時間帯情報、コンテンツの再生を行う曜日を示す曜日情報、および天候情報のうちの少なくとも何れか1つなどとすることができる。
 マスキング音生成部21は、供給された外部情報に応じてマスキング音を生成し、再生レベル調整部23は外部情報に応じてマスキング音とコンテンツ音の再生レベルを調整させる。
 具体的には、外部情報として曜日情報と時間帯情報が用いられる場合、マスキング音生成部21および再生レベル調整部23には、例えば図4に示すパラメータテーブルが予め保持されている。
 図4において文字「曜日」および「時間帯」は、それぞれ曜日情報および時間帯情報を示している。
 また、文字「コンテンツ音再生レベル」および「マスキング音再生レベル」は、それぞれコンテンツ音の再生レベルおよびマスキング音の再生レベル、すなわちコンテンツ音用のゲイン係数およびマスキング音用のゲイン係数を示している。さらに文字「マスキング音パラメータ」は、マスキング音の周波数特性を示す情報であるマスキング音パラメータを示している。
 マスキング音生成部21では、パラメータテーブルが参照されて、供給された外部情報としての曜日情報および時間帯情報の組み合わせに対して予め定められたマスキング音パラメータにより示されるマスキング音が生成される。
 例えばマスキング音パラメータ「空調」は、空調の音が有する周波数特性を示しており、このマスキング音パラメータ「空調」に基づいて生成されるマスキング音は、空調音と同様な周波数特性を有する音とされる。したがって、そのようなマスキング音を再生した場合には、それを聞いている人には空調音がなっているように聞こえることになる。
 また、マスキング音パラメータ「雑踏+空調」は、雑踏音と空調音の混合音が有する周波数特性を示している。したがって、マスキング音パラメータ「雑踏+空調」に基づいて生成されるマスキング音を再生すれば、それを聞いている人には雑踏音と空調音がなっているように聞こえることになる。
 マスキング音生成部21には、このようなパラメータテーブルとともに各マスキング音パラメータが予め保持されている。
 再生レベル調整部23では、パラメータテーブルが参照されて、供給された外部情報としての曜日情報および時間帯情報の組み合わせに対して予め定められたコンテンツ音用のゲイン係数およびマスキング音用のゲイン係数が、増幅部25および増幅部24に供給される。
 再生レベル調整部23には、パラメータテーブルとともにコンテンツ音用のゲイン係数およびマスキング音用のゲイン係数が予め保持されている。
 例えば外部情報として曜日情報「日曜日」と時間帯情報「8:00-12:00」が供給された場合、コンテンツ音が25dBで再生され、空調音と同様のマスキング音が3dBで再生されることになる。
 図4に示す例では、例えば日曜日の午前中など、来場者が少ないであろう曜日および時間帯には再生空間は比較的静かであると予測されるため、コンテンツ音の再生レベルが比較的小さくされ、それに伴いマスキング音の再生レベルも小さくなっている。また、この場合、再生空間は比較的静かであると予測されるので、マスキング音は空調音のみとなっている。
 これに対して、例えば日曜日の午後などにおいては、来場者が多いと予測されるため、コンテンツ音の再生レベルが大きくされ、それに伴いマスキング音の再生レベルも大きくなっており、マスキング音も雑踏音と空調音となっている。
 その他、外部情報として来場者数情報が用いられる場合、例えば来場者数が多いときにはコンテンツ音やマスキング音の再生レベルが大きくされるとともに、マスキング音が雑踏音と空調音とされるようにしてもよい。
 また、例えばコンテンツ再生システムが屋根付きの屋外で用いられ、外部情報として天候情報が用いられる場合、天候情報により示される天候が雨であるときには、暗騒音に含まれる雨音によって漏れ音がある程度マスキングされる。
 したがって、そのような場合にはコンテンツ音の再生レベルは大きくされ、マスキング音の再生レベルは小さくされるようにすることができる。なお、この場合、マスキング音は再生されないようにしてもよい。また、マスキング音が雨音とされるようにしてもよい。
 以上のように信号処理装置11では、外部情報と、コンテンツ音用のゲイン係数と、マスキング音用のゲイン係数と、マスキング音パラメータとが対応付けられたパラメータテーブルが用いられてマスキング音の生成や、コンテンツ音とマスキング音の再生レベルの調整が制御される。
 このような制御は、外部情報に応じてコンテンツ音の再生レベルを変動させ、また、そのコンテンツ音の再生レベルの変動に応じてマスキング音の再生レベルを変動させる制御であるということができる。
 特に、図4に示した例ではコンテンツ音の再生レベルが大きいときにはマスキング音の再生レベルも大きくされ、逆にコンテンツ音の再生レベルが小さいときにはマスキング音の再生レベルも小さくされている。
 また、マスキング音生成部21に予め保持されているマスキング音パラメータは、例えばコンテンツ再生システムの稼働場所の空調や人が往来する際の雑踏などの暗騒音を予め計測することにより生成される。例えばマスキング音生成部21では、このようなマスキング音パラメータにより示される暗騒音の周波数特性を有するガウシアンノイズなどがマスキング音として生成されることになる。
 なお、マスキング音はガウシアンノイズに限らず、ピンクノイズや白色ノイズ、雑踏ノイズ、バブルノイズ等の一般的なノイズなど、他のどのようなノイズであってもよい。
 また、マスキング音生成部21において、コンテンツ音が用いられて、そのコンテンツ音の特徴を消すような特性のマスキング音が生成されるようにしてもよい。すなわち、コンテンツ音の周波数特性に応じてマスキング音の周波数特性を変化させるようにしてもよい。そのような場合、マスキング音生成部21にコンテンツ音データが供給される。
 具体的には、例えばコンテンツ音が音声である場合、マスキング音生成部21は、コンテンツ音としての音声のフォルマントを解析することで、コンテンツ音の周波数の谷間を埋めるような周波数特性をもつマスキング音を生成する。すなわち、各周波数のうち、コンテンツ音でレベルが小さい周波数において、マスキング音のレベルが大きくなるような周波数特性のマスキング音が生成される。
 このようなマスキング音をコンテンツ音とともに再生すれば、分割領域から漏れ出るコンテンツ音としての音声特有の特徴を消すことができ、マスキング効果を向上させることができる。すなわち、漏れ音が人の音声であることを知覚させにくくすることができる。
 さらに再生レベル調整部23において、供給されたコンテンツ音に対する周波数解析を行い、その解析結果に基づいて周波数帯域ごとにマスキング音の再生レベルを決定してもよい。そのような場合、周波数帯域ごとにコンテンツ音が暗騒音を超えて漏れ出るレベルが推定され、漏れ音が聴覚特性上でマスキングされるように周波数帯域ごとにマスキング音の再生レベルが決定されることになる。
 その他、パラメータテーブル以外にも、予め機械学習により生成されたニューラルネットワーク等の予測器が用いられるようにしてもよい。
 そのような場合、例えばマスキング音生成部21は、予め保持している予測器に外部情報を入力して演算することにより、出力としてマスキング音パラメータを得て、得られたマスキング音パラメータに基づいてマスキング音を生成する。
 また、この場合、再生レベル調整部23は、予め保持している予測器に外部情報やコンテンツ音を入力して演算することにより、出力としてコンテンツ音用のゲイン係数およびマスキング音用のゲイン係数を得る。
〈マスキング音の再生範囲について〉
 さらに、図3に示した構成の信号処理装置11では、例えば再生空間全体をマスキング音の再生範囲とすることができる。
 具体的には、例えば図5に示すようにスピーカアレイ12の前方にある領域R21が再生空間であるとする。
 この例では、再生空間の全領域である領域R21内に、コンテンツ音が再生される2つの分割領域R22および分割領域R23が形成される。すなわち、上述した領域Aに対応する分割領域R22ではコンテンツAが再生され、領域Bに対応する分割領域R23ではコンテンツBが再生される。
 なお、ここでは説明を簡単にするため、分割領域が2つである場合について説明するが、分割領域は3以上であっても勿論よい。
 図5の例では、分割領域R22および分割領域R23を含む領域R21全体でマスキング音が再生されるようになっている。
 この場合、図5中の直線L31により示されるx軸上における音圧分布は図6に示すようになる。なお、図6において横軸はx軸方向における位置を示しており、縦軸は各位置における音圧を示している。
 図6に示す例では、曲線L41はコンテンツAの音の音圧分布を示しており、曲線L42はコンテンツBの音の音圧分布を示している。
 また、直線L43はマスキング音の音圧分布を示しており、直線L44はスピーカアレイ12の周囲における暗騒音の音圧レベルを示している。
 この例では、マスキング音は再生空間内の各位置において同じ音圧(再生レベル)となっており、かつマスキング音の再生レベルは暗騒音のレベルよりも大きくなるようになされている。
 これにより、再生空間の各位置において暗騒音よりも大きな漏れ音を聞き取りにくくすることができる。特に、ここでは分割領域R22と分割領域R23の間の領域だけでなく、分割領域R22や分割領域R23内部における境界部分においても、漏れ音となるコンテンツ音よりマスキング音のレベルが大きくなっており、漏れ音がマスキングされていることが分かる。
 例えば外部情報を用いれば、実際に暗騒音のレベルを測定しなくても外部情報から大よその暗騒音レベルを推定することができる。したがって、外部情報とパラメータテーブルに基づいてマスキング音の再生レベルを決定する方法では、マスキング音の再生レベルを外部情報に対して定められた再生レベルとすることで、暗騒音レベルよりも大きい再生レベルでマスキング音を再生することが可能である。暗騒音によっても小さい漏れ音はマスキングされるが、暗騒音レベルよりも大きい再生レベルでマスキング音を再生することで、マスキング音によって、より大きい漏れ音もマスキングされるようになり、漏れ音を聞こえにくくすることができる。
〈コンテンツ再生処理の説明〉
 続いてコンテンツ再生システムにより行われるコンテンツ再生処理について説明する。すなわち、以下、図7のフローチャートを参照して、コンテンツ再生システムによるコンテンツ再生処理について説明する。このコンテンツ再生処理は、複数のコンテンツが指定され、それらのコンテンツの再生が指示されると開始される。
 ステップS11においてマスキング音生成部21は、外部から供給された外部情報と、予め保持しているパラメータテーブルとに基づいてマスキング音を生成し、増幅部24に供給する。
 例えばステップS11ではパラメータテーブルが参照されて、外部情報に対応付けられているマスキング音パラメータに基づいて、マスキング音が生成される。
 ステップS12において波面合成フィルタ部22は、供給されたコンテンツ音データに対して波面合成フィルタによるフィルタリング処理を行い、その結果得られた各チャンネルの出力音を増幅部25に供給する。
 例えばコンテンツAとコンテンツBが再生対象のコンテンツとして指定されたとすると、図5に示した例のように、波面合成によりコンテンツAが分割領域R22内でのみ再生され、かつコンテンツBが分割領域R23内でのみ再生される出力音が生成される。
 ステップS13において再生レベル調整部23は、供給された外部情報およびコンテンツ音データの少なくとも何れか一方と、保持しているパラメータテーブルとに基づいて、マスキング音とコンテンツ音の再生レベルを決定する。
 例えばステップS13ではパラメータテーブルが参照されて、外部情報に対応付けられているゲイン係数を特定することにより、コンテンツ音とマスキング音の再生レベルが決定される。再生レベル調整部23は、決定されたマスキング音用のゲイン係数を増幅部24に供給するとともに、コンテンツ音用のゲイン係数を増幅部25に供給する。
 ステップS14において増幅部24および増幅部25はレベル調整を行う。
 すなわち、増幅部24は、マスキング音生成部21から供給されたマスキング音に対して、再生レベル調整部23から供給されたマスキング音用のゲイン係数を乗算することでレベル調整を行い、レベル調整後のマスキング音を加算部26に供給する。
 また、増幅部25は、波面合成フィルタ部22から供給された各チャンネルの出力音に対して、再生レベル調整部23から供給されたコンテンツ音用のゲイン係数を乗算することでレベル調整を行い、レベル調整後の各チャンネルの出力音を加算部26に供給する。
 ステップS15において加算部26は、増幅部25から供給された各チャンネルの出力音に対して、増幅部24から供給されたマスキング音を加算する加算処理を行い、その結果得られた最終的な各チャンネルの出力音をDA変換部27に供給する。
 ステップS16においてDA変換部27は、加算部26から供給された各チャンネルの出力音に対してDA変換を行い、その結果得られた各チャンネルの出力音を、スピーカアレイ12の各チャンネルに対応するスピーカに供給してコンテンツ音を再生させる。
 スピーカアレイ12の各スピーカは、DA変換部27から供給された出力音を出力することで、コンテンツ音を再生すると同時にマスキング音も再生する。
 これにより、例えば図5の分割領域R22内ではコンテンツAが再生され、分割領域R23内ではコンテンツBが再生されるマルチゾーン再生が波面合成により実現される。同時に、再生空間全体の領域R21では、各位置で均一の音圧(再生レベル)でマスキング音が再生されることになる。
 このようにしてコンテンツ音が再生されると、コンテンツ再生処理は終了する。
 以上のようにしてコンテンツ再生システムは、外部情報に基づいてマスキング音を生成し、コンテンツ音とともにマスキング音も再生する。このようにすることで、スピーカ数を増加させたり、膨大な数のマイクロホンを用いたりすることなく簡単に漏れ音を聞こえにくくすることができる。
〈第2の実施の形態〉
〈コンテンツ再生システムの構成例〉
 なお、以上においては再生空間の全体で均一な音圧(レベル)でマスキング音が再生される例について説明した。しかし、それに限らずマスキング音についても波面合成を利用して特定の領域でのみ再生されるようにしてもよい。
 そのような場合、コンテンツ再生システムは、例えば図8に示すように構成される。なお、図8において図3における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図8に示すコンテンツ再生システムは、信号処理装置11とスピーカアレイ12とを有している。また、図8に示す信号処理装置11の構成は、新たに波面合成フィルタ部51が設けられ、かつ図3に示した増幅部24に代えて増幅部52が設けられている点において図3に示した信号処理装置11の構成と異なっており、その他の点では図3の信号処理装置11と同じ構成とされている。
 波面合成フィルタ部51は、例えば波面合成によりマスキング音を所定のマスキング領域でのみ再生するための波面合成フィルタを予め有している。なお、波面合成フィルタ部51が波面合成フィルタを生成するようにしてもよい。
 ここで、マスキング領域とはコンテンツ音、つまり漏れ音のマスキングを行いたい領域であり、例えば複数の分割領域の間の領域がマスキング領域とされる。
 波面合成フィルタ部51は、マスキング音生成部21から供給されたマスキング音、より詳細にはマスキング音の音響信号に対して波面合成フィルタによるフィルタリング処理を行い、その結果得られた各チャンネルのマスキング音を増幅部52に供給する。
 このようにして得られる各チャンネルのマスキング音をスピーカアレイ12の各スピーカから出力すると、目的とするマスキング領域でのみマスキング音が再生されるように、波面合成によってマスキング音の波面が形成される。
 換言すれば、各チャンネルのマスキング音をスピーカアレイ12の各スピーカから出力すると、波面合成により指向性を有する音響ビームがマスキング音の音響ビームとして生成され、結果としてマスキング領域のみでマスキング音が再生されることになる。
 このように波面合成用の各チャンネルのマスキング音を生成することで、マスキング領域を区切ることができ、目的とするマスキング領域でのみコンテンツの漏れ音をマスキングすることができる。換言すれば、漏れ音が生じる領域をマスキング領域とすることで、漏れ音のみをマスキングすることができるようになる。
 増幅部52は、例えばスピーカアレイ12を構成する各スピーカに対応するチャンネルごとに設けられた増幅器からなる。
 増幅部52は、波面合成フィルタ部51から供給された各チャンネルのマスキング音に対して、再生レベル調整部23から供給されたマスキング音用のゲイン係数を乗算することでマスキング音のレベル調整を行い、レベル調整後のマスキング音を加算部26に供給する。
 加算部26は、増幅部25から供給された各チャンネルの出力音に対して、増幅部52から供給された各チャンネルのマスキング音を加算することで、最終的な各チャンネルの出力音を生成し、DA変換部27に供給する。加算部26では、同じチャンネルのマスキング音と出力音が加算される。
〈マスキング領域について〉
 図8に示した構成の信号処理装置11では、再生空間全体ではなく、マスキング領域がマスキング音の再生範囲とされる。
 具体的には、例えば図9に示すようにスピーカアレイ12の前方にある領域が再生空間であるとする。なお、図9において図5における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図9の例では、再生空間に2つの分割領域R22および分割領域R23が形成され、さらにそれらの分割領域R22と分割領域R23との間の領域がマスキング領域R31とされている。したがって、この例ではマスキング領域R31内においてのみマスキング音が再生されて漏れ音のマスキングが行われ、マスキング領域R31外ではマスキング音は再生されず、漏れ音のマスキングは行われない。
 この場合、図9中の直線L31により示されるx軸上における音圧分布は図10に示すようになる。なお、図10において横軸はx軸方向における位置を示しており、縦軸は各位置における音圧を示している。また、図10において図6における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図10に示す例では、曲線L51はマスキング音の音圧分布を示している。
 曲線L51に示されるようにマスキング音の音圧は、分割領域R22と分割領域R23との間の領域、つまりマスキング領域R31内でのみ暗騒音レベルよりも大きくなっており、マスキング領域R31外では暗騒音レベルよりも小さくなっていることが分かる。換言すれば、波面合成が利用されてマスキング領域R31においてのみマスキング音による漏れ音のマスキングが行われていることが分かる。
〈コンテンツ再生処理の説明〉
 以上のような図8に示したコンテンツ再生システムでは、図11に示すコンテンツ再生処理が行われる。すなわち、以下、図11のフローチャートを参照して、図8に示したコンテンツ再生システムによるコンテンツ再生処理について説明する。
 コンテンツ再生処理が開始されると、ステップS41の処理が行われるが、ステップS41の処理は図7のステップS11の処理と同様であるのでその説明は省略する。
 ステップS42において波面合成フィルタ部51は、マスキング音生成部21から供給されたマスキング音に対して波面合成フィルタによるフィルタリング処理を行い、その結果得られた各チャンネルのマスキング音を増幅部52に供給する。
 例えばコンテンツAとコンテンツBが再生対象のコンテンツとして指定されたとすると、図9に示した例のように、波面合成によりマスキング領域R31内においてのみマスキング音が再生されるように、各チャンネルのマスキング音が生成される。
 ステップS42の処理が行われると、その後、ステップS43乃至ステップS47の処理が行われてコンテンツ再生処理が終了するが、これらの処理は図7のステップS12乃至ステップS16の処理と同様であるので、その説明は省略する。
 但し、ステップS45では、増幅部52において各チャンネルのマスキング音のレベル調整が行われるとともに、増幅部25で各チャンネルの出力音のレベル調整が行われ、ステップS46では、チャンネルごとにマスキング音と出力音の加算処理が行われる。
 スピーカアレイ12において各チャンネルの出力音が出力されると、例えば図9に示したように分割領域R22でコンテンツAが再生され、分割領域R23ではコンテンツBが再生され、マスキング領域R31ではマスキング音が再生される。
 以上のようにしてコンテンツ再生システムは、外部情報に基づいてマスキング音を生成し、波面合成によってコンテンツ音とともにマスキング音も再生する。このようにすることで、簡単に漏れ音を聞こえにくくすることができる。しかも所望のマスキング領域のみを対象として漏れ音のマスキングを行うことができる。
〈第3の実施の形態〉
〈コンテンツ再生システムの構成例〉
 さらに、以上においてはマスキング音の生成に外部情報を用いる例について説明したが、外部センサの出力を用いてマスキング音を生成するようにしてもよい。
 例えば外部センサとしてカメラを用いる場合、コンテンツ再生システムは図12に示すように構成される。なお、図12において図8における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図12に示すコンテンツ再生システムは、カメラ81、信号処理装置11、およびスピーカアレイ12を有している。
 また、図12に示す信号処理装置11の構成は、図8に示した信号処理装置11の構成に加えて新たに認識部91が設けられた構成となっており、その他の点では図8の信号処理装置11と同じ構成とされている。
 外部センサとして設けられたカメラ81は、例えば再生空間内に配置されており、再生空間全体、または分割領域の周辺の領域を被写体として撮影し、その結果得られた撮影画像を認識部91に供給する。例えば撮影画像には、少なくとも分割領域の周囲の領域が被写体として含まれている。
 認識部91は、カメラ81から供給された撮影画像に対して顔認識や人物認識を行って撮影画像から人を検出することで、コンテンツ再生システムの周囲、すなわち再生空間全体や、分割領域周囲にいる人の数(人数)を推定する。換言すれば、認識部91は撮影画像から人を検出する検出部として機能する。認識部91は、コンテンツ再生システムの周囲にいる人の人数の推定結果として得られた、人数を示す人数情報をマスキング音生成部21および再生レベル調整部23に供給する。
 マスキング音生成部21は、認識部91から供給された人数情報に基づいてマスキング音を生成し、波面合成フィルタ部51に供給する。
 具体的には、例えば人数情報により示される人数が所定の閾値以上である場合、つまり周囲に人が多くいる場合、周囲にはノイズ源が多いので、マスキング音生成部21はガウシアンノイズをマスキング音として生成する。これはノイズ源が多いほど、それらのノイズ源の音からなる暗騒音は、ガウシアンノイズに近づくからである。
 これに対して、例えば人数情報により示される人数が閾値未満である場合、つまり周囲に人が少ない場合、マスキング音生成部21はスーパーガウシアンノイズをマスキング音として生成する。これはノイズ源が少ないと、それらのノイズ源の音からなる暗騒音の周波数特性の尖度が大きくなるからである。
 なお、人数情報により示される人数に応じた尖度の周波数特性を有するノイズがマスキング音として生成されるようにしてもよい。その他、ニューラルネットワーク等の予測器に人数情報を入力して演算を行うことで、その出力として得られる周波数特性を有するマスキング音を生成するようにしてもよいし、外部情報と人数情報を組み合わせてマスキング音を生成するようにしてもよい。
 このように周囲にいる人の数に応じてマスキング音を生成することで、暗騒音が有する特性に近い特性のマスキング音を生成することができる。
 再生レベル調整部23は、認識部91から供給された人数情報に基づいてコンテンツ音用のゲイン係数およびマスキング音用のゲイン係数を決定し、増幅部25および増幅部52に供給する。
 具体的には、例えば人数情報により示される人数が多いほどコンテンツ音の再生レベルが大きくなるように、コンテンツ音用のゲイン係数が決定される。これは、周囲に人が多いほど、コンテンツ音が聞き取りにくくなるためである。
 これに対して、例えば人数情報により示される人数が多いほどマスキング音の再生レベルが小さくなるように、マスキング音用のゲイン係数が決定される。これは、周囲に人が多いほど、暗騒音のレベルが大きく漏れ音が聞こえにくくなるためである。なお、人数情報により示される人数が所定人数以上であり、暗騒音レベルが大きいと推定される場合には、マスキング音は再生(生成)されないようにしてもよい。
 その他、マスキング領域にのみ人がいる場合には、コンテンツ音の再生レベルは通常程度の大きさとされ、マスキング音の再生レベルは大きくされるようにしてもよい。
 このような人数情報を用いたマスキング音の再生レベルの調整は、人数情報から推定される暗騒音のレベルに対して適切なマスキング音の再生レベルを決定する処理であるということができる。
 なお、再生レベル調整部23において、第1の実施の形態における場合と同様に、人数情報だけでなくコンテンツ音データも用いられてコンテンツ音用のゲイン係数やマスキング音用のゲイン係数が決定されるようにしてもよい。
 さらに、ニューラルネットワーク等の予測器に人数情報やコンテンツ音データを入力して演算を行うことで、その出力としてコンテンツ音やマスキング音の再生レベルの決定結果が得られるようにしてもよいし、外部情報と人数情報を組み合わせてコンテンツ音やマスキング音の再生レベルが決定されるようにしてもよい。
〈コンテンツ再生処理の説明〉
 以上のような図12に示したコンテンツ再生システムでは、図13に示すコンテンツ再生処理が行われる。すなわち、以下、図13のフローチャートを参照して、図12に示したコンテンツ再生システムによるコンテンツ再生処理について説明する。
 ステップS71において認識部91は、カメラ81から供給された撮影画像に基づいて認識処理を行い、その結果得られた人数情報をマスキング音生成部21および再生レベル調整部23に供給する。
 ステップS72においてマスキング音生成部21は、認識部91から供給された人数情報に基づいてマスキング音を生成し、波面合成フィルタ部51に供給する。
 例えばステップS72では、人数情報に応じてガウシアンノイズまたはスーパーガウシアンノイズがマスキング音として生成される。
 マスキング音が生成されると、その後、ステップS73においてマスキング音に対するフィルタリング処理が行われ、ステップS74においてコンテンツ音に対するフィルタリング処理が行われる。なお、これらの処理は図11のステップS42およびステップS43の処理と同様であるので、その説明は省略する。
 ステップS75において再生レベル調整部23は、認識部91から供給された人数情報に基づいてコンテンツ音の再生レベルおよびマスキング音の再生レベルを決定する。
 例えばステップS75では、人数情報により示される人数が多いほど、コンテンツ音の再生レベルが大きくなり、かつマスキング音の再生レベルが小さくなるように、コンテンツ音用のゲイン係数、およびマスキング音用のゲイン係数が決定される。
 コンテンツ音とマスキング音の再生レベル、すなわちゲイン係数が決定されると、その後、ステップS76乃至ステップS78の処理が行われてコンテンツ再生処理は終了するが、これらの処理は図11のステップS45乃至ステップS47の処理と同様であるので、その説明は省略する。
 以上のようにしてコンテンツ再生システムは、人数情報に基づいてマスキング音を生成するとともに、コンテンツ音やマスキング音の再生レベルを調整し、波面合成によってコンテンツ音とマスキング音を再生する。このようにすることで、簡単に漏れ音を聞こえにくくすることができる。
〈第4の実施の形態〉
〈コンテンツ再生システムの構成例〉
 さらに、外部センサとしてマイクロホンを用いるようにしてもよい。そのような場合、コンテンツ再生システムは、例えば図14に示すように構成される。なお、図14において図8における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図14に示すコンテンツ再生システムは、マイクロホン121、信号処理装置11、およびスピーカアレイ12を有している。
 また、図14に示す信号処理装置11の構成は、図8に示した信号処理装置11の構成に加えて新たにAD(Analog to Digital)変換部131および暗騒音解析部132が設けられた構成となっており、その他の点では図8の信号処理装置11と同じ構成とされている。
 外部センサとしてのマイクロホン121は、例えば再生空間内の任意の位置に配置され、再生空間内、例えば分割領域周囲の領域の暗騒音を取得する。すなわち、マイクロホン121は周囲の音(以下、収録音と称する)を収音し、AD変換部131に供給する。なお、マイクロホン121は1つであってもよいが、複数のマイクロホン121が配置されるようにしても勿論よい。
 AD変換部131は、マイクロホン121から供給された収録音をAD変換し、その結果得られたデジタルの収録音を暗騒音解析部132に供給する。
 暗騒音解析部132は、外部から供給されたコンテンツ音データに基づいて、AD変換部131から供給された収録音のレベル等の解析、つまり周囲の暗騒音の特性の解析を行い、その解析結果をマスキング音生成部21および再生レベル調整部23に供給する。
 例えばスピーカアレイ12により出力音が出力されている状態では、マイクロホン121で得られた収録音には周囲の暗騒音だけでなく、コンテンツ音やマスキング音も含まれている。
 そこで、暗騒音解析部132は供給されたコンテンツ音データに基づいて、コンテンツ音が無音となっている無音区間、つまりコンテンツが再生されていない区間に収音された収録音を暗騒音とみなす。そして、暗騒音解析部132は、暗騒音とみなした区間の収録音に対して解析処理を行う。なお、コンテンツ音が無音である区間では、マスキング音も再生されていないものとする。
 具体的には、例えば解析処理として暗騒音のレベルである暗騒音レベルが算出されたり、暗騒音の周波数特性が周波数分析(周波数解析)により求められたり、暗騒音の振幅特性が求められたりする。このようにして得られた暗騒音レベルや周波数特性が暗騒音の解析結果として暗騒音解析部132から出力される。
 マスキング音生成部21は、暗騒音解析部132から供給された解析結果に基づいてマスキング音を生成し、波面合成フィルタ部51に供給する。
 例えばマスキング音生成部21では、第1の実施の形態と同様にパラメータテーブルに基づいてマスキング音を生成してもよいし、ニューラルネットワーク等の予測器を用いてマスキング音を生成してもよい。
 再生レベル調整部23は、暗騒音解析部132から供給された解析結果、および供給されたコンテンツ音データの少なくとも何れか一方に基づいて、マスキング音とコンテンツ音の再生レベルの調整を制御する。
 すなわち、再生レベル調整部23は、解析結果とコンテンツ音データの少なくとも何れか一方に基づいてマスキング音の再生レベル、すなわちマスキング音用のゲイン係数を決定し、決定されたゲイン係数を増幅部52に供給する。
 同様に、再生レベル調整部23は、解析結果とコンテンツ音データの少なくとも何れか一方に基づいてコンテンツ音の再生レベル、すなわちコンテンツ音用のゲイン係数を決定し、決定されたゲイン係数を増幅部25に供給する。
 例えば再生レベル調整部23では、第1の実施の形態と同様にパラメータテーブルに基づいてゲイン係数を決定してもよいし、ニューラルネットワーク等の予測器を用いてゲイン係数を決定してもよい。
 ここで、具体例としてパラメータテーブルに基づいて、マスキング音の生成やゲイン係数の決定が行われる場合について説明する。そのような場合、例えばマスキング音生成部21や再生レベル調整部23には図15に示すパラメータテーブルが予め保持されている。
 図15において文字「暗騒音音圧」は、暗騒音解析部132での解析結果として得られた暗騒音レベル、すなわち測定された暗騒音の音圧を示している。
 また、文字「コンテンツ音再生レベル」および「マスキング音再生レベル」は、それぞれコンテンツ音の再生レベルおよびマスキング音の再生レベル、すなわちコンテンツ音用のゲイン係数およびマスキング音用のゲイン係数を示している。さらに文字「マスキング音パラメータ」はマスキング音パラメータを示している。
 例えばマスキング音パラメータ「空調」は、図4における場合と同様に空調音の周波数特性を示しており、マスキング音パラメータ「マイク取得音の周波数特性」は暗騒音としての収録音の周波数特性を示している。
 なお、マスキング音生成部21にはマスキング音パラメータ「マイク取得音の周波数特性」は予め保持されておらず、暗騒音解析部132から解析結果として供給された暗騒音の周波数特性がマスキング音パラメータ「マイク取得音の周波数特性」として用いられる。
 この場合、マスキング音パラメータとしての暗騒音の周波数特性に応じたガウシアンノイズがマスキング音として生成されるようにしてもよい。
 このようなマスキング音パラメータ「マイク取得音の周波数特性」に基づいてマスキング音を生成すれば、実際の暗騒音と同じ周波数特性を有するマスキング音を得ることができ、違和感を生じさせずに、より自然に漏れ音をマスキングすることができる。
 また、コンテンツ音とマスキング音の再生レベルに注目すると、暗騒音レベルが大きくなるほどコンテンツ音の再生レベルもマスキング音の再生レベルも大きくなっている。
 図15に示す例では、例えば暗騒音の解析結果として暗騒音レベル、つまり暗騒音音圧「60dBA」が得られた場合、コンテンツ音が10dBで再生され、空調音と同様のマスキング音が3dBで再生されることになる。
 このような図15に示すパラメータテーブルを用いる場合には、暗騒音レベルに応じてコンテンツ音の再生レベルが変化し、さらにそのコンテンツ音の再生レベルの変化分に応じてマスキング音の再生レベルが決定されるような制御が行われることになる。
 なお、パラメータテーブルを用いてマスキング音パラメータやゲイン係数(再生レベル)を決定する場合、暗騒音の解析結果等の外部センサの出力から得られる情報だけでなく、外部情報も組み合わせて用いるようにしてもよい。
 そのような場合、例えば暗騒音の解析結果と、外部情報との組み合わせに対して、コンテンツ音やマスキング音の再生レベル(ゲイン係数)と、マスキング音パラメータとが対応付けられたパラメータテーブルを用いるようにすることができる。換言すれば、暗騒音の解析結果と外部情報に基づいて、コンテンツ音やマスキング音のゲイン係数と、マスキング音パラメータが決定されるようにすることができる。
〈コンテンツ再生処理の説明〉
 以上のような図14に示したコンテンツ再生システムでは、図16に示すコンテンツ再生処理が行われる。すなわち、以下、図16のフローチャートを参照して、図14に示したコンテンツ再生システムによるコンテンツ再生処理について説明する。
 ステップS101において暗騒音解析部132は、供給されたコンテンツ音データに基づいて、コンテンツ音が無音となっている無音区間においてAD変換部131から供給された収録音、すなわち暗騒音の解析処理を行い、その解析結果をマスキング音生成部21および再生レベル調整部23に供給する。ここでは、暗騒音の解析結果として、例えば暗騒音レベルや周波数特性、振幅特性などが得られる。
 ステップS102においてマスキング音生成部21は、暗騒音解析部132から供給された解析結果と、予め保持しているパラメータテーブルとに基づいてマスキング音を生成し、波面合成フィルタ部51に供給する。
 例えばステップS102ではパラメータテーブルが参照されて、暗騒音の解析結果に対して対応付けられているマスキング音パラメータに基づいて、マスキング音が生成される。
 マスキング音が生成されると、その後、ステップS103においてマスキング音に対するフィルタリング処理が行われ、ステップS104においてコンテンツ音に対するフィルタリング処理が行われる。なお、これらの処理は図11のステップS42およびステップS43の処理と同様であるので、その説明は省略する。
 ステップS105において再生レベル調整部23は、供給されたコンテンツ音データおよび暗騒音解析部132から供給された解析結果の少なくとも何れか一方と、保持しているパラメータテーブルとに基づいて、マスキング音とコンテンツ音の再生レベルを決定する。
 例えばステップS105ではパラメータテーブルを参照して、暗騒音の解析結果に対応付けられているゲイン係数を特定することにより、コンテンツ音とマスキング音の再生レベル、すなわちゲイン係数が決定される。
 再生レベル調整部23は、決定されたマスキング音用のゲイン係数を増幅部52に供給するとともに、コンテンツ音用のゲイン係数を増幅部25に供給する。
 再生レベルが決定されると、その後、ステップS106乃至ステップS108の処理が行われてコンテンツ再生処理は終了するが、これらの処理は図11のステップS45乃至ステップS47の処理と同様であるので、その説明は省略する。
 以上のようにしてコンテンツ再生システムは、暗騒音の解析結果に基づいてマスキング音を生成するとともに、コンテンツ音やマスキング音の再生レベルを調整し、波面合成によってコンテンツ音とマスキング音を再生する。このようにすることで、簡単に漏れ音を聞こえにくくすることができる。
〈第4の実施の形態の変形例1〉
〈パラメータテーブルの他の例〉
 また、外部センサとしてマイクロホン121を利用する場合、マイクロホン121を複数の分割領域の間の領域に配置することもできる。そうすれば、各分割領域で再生されたコンテンツ音と、暗騒音と、マスキング音とが混ざった音をマイクロホン121により収録音として得ることができる。
 この場合、収録音を解析することによって、漏れ音を確実にマスキングするために、あとどれだけマスキング音を付加すればよいか、つまりマスキング音の再生レベルをどれだけ増加させればよいかを計算により求めることができる。
 具体的には、例えば暗騒音解析部132は、コンテンツ音をS(シグナル)とし、暗騒音とマスキング音の混合音をN(ノイズ)とする。すなわち、暗騒音解析部132はコンテンツ音が再生されているときの収録音の音圧と、コンテンツ音が再生されていないときの収録音の音圧との差をSN比として求める。
 そして暗騒音解析部132は、求めたSN比が0dBよりも大きい場合には、コンテンツ音のレベルが優位、すなわち漏れ音が発生しているのでマスキング音をさらに付加すると判定し、マスキング音の再生レベルを増加させる。
 これに対して、暗騒音解析部132は、求めたSN比が0dBよりも小さい場合には、マスキング音と暗騒音の混合音のレベルが優位、すなわち漏れ音はすでに聞こえない状態であると判定し、マスキング音の再生レベルを減少させる。
 このようにしてマスキング音の再生レベルを動的に変化させていけば、周囲の環境等に応じて適切な再生レベルでマスキング音を再生することができる。
 以上のようなマスキング音の再生レベルの調整制御は、例えば図17に示すパラメータテーブルを用いることで実現することができる。
 図17において文字「SN比」は、暗騒音解析部132での解析結果として得られた収録音の音圧に基づいて算出された上述のSN比を示している。
 また、文字「コンテンツ音再生レベル」は、コンテンツ音の再生レベル、すなわちコンテンツ音用のゲイン係数を示している。
 さらに文字「マスキング音再生レベルの変動」は、マスキング音の再生レベルの増減値を示しており、文字「マスキング音パラメータ」はマスキング音パラメータを示している。
 例えばマスキング音再生レベルの変動「-6dB」は、マスキング音の再生レベルを現在のレベルから-6dBだけ減少させることを示している。図17に示す例では、SN比に応じてマスキング音の再生レベルが増減し、SN比が0dBである場合には、現時点のマスキング音の再生レベルが適切なレベルであるものとされ、その再生レベルが維持される。つまり増減値が0dBとされる。
 したがって再生レベル調整部23は、パラメータテーブルを参照して、暗騒音解析部132から供給されたSN比に対応する増減値だけ、マスキング音の再生レベルを増減させる。すなわち再生レベル調整部23は、マスキング音の再生レベルの増減値に応じて新たなマスキング音用のゲイン係数を決定し、その新たなゲイン係数を増幅部52に供給する。
 このような図17に示すパラメータテーブルがマスキング音生成部21および再生レベル調整部23に保持されている場合、図16を参照して説明したコンテンツ再生処理のステップS101ではSN比が算出される。
 すなわち、暗騒音解析部132は、暗騒音解析として、コンテンツ音が再生されていないタイミングで得られた収録音と、コンテンツ音が再生されているタイミングで得られた収録音とに基づくSN比の算出を行い、得られたSN比をマスキング音生成部21および再生レベル調整部23に供給する。
 すると、ステップS102ではマスキング音生成部21は、暗騒音解析部132から供給されたSN比と、保持しているパラメータテーブルとに基づいてマスキング音パラメータを決定し、その決定結果に従ってマスキング音を生成する。
 また、ステップS105では、再生レベル調整部23は、暗騒音解析部132から供給されたSN比と、保持しているパラメータテーブルとに基づいてコンテンツ音とマスキング音の再生レベル、すなわちゲイン係数を決定する。
 例えば図17に示した例では、コンテンツ音の再生レベルが常に20dBとなるようにコンテンツ音用のゲイン係数が決定される。また、マスキング音については、マスキング音の現時点での再生レベルと、SN比に対応する増減値とに対して定まる再生レベルに対応するゲイン係数に決定される。
 このようにSN比、つまりコンテンツ音と、暗騒音およびマスキング音の混合音との音圧の関係に応じてマスキング音の再生レベルを変動させることで、より適切な再生レベルでマスキング音を再生し、確実に漏れ音をマスキングすることができる。
 以上のようなSN比に基づくマスキング音の再生レベルの制御は、暗騒音レベル、より詳細には暗騒音とマスキング音のレベルと、コンテンツ音の再生レベルとの差に応じて、マスキング音の再生レベルを増減させる制御であるということができる。
 なお、ここではSN比とパラメータテーブルとを用いてマスキング音パラメータやマスキング音の再生レベルを決定する例について説明したが、予め機械学習により生成されたニューラルネットワーク等の予測器が用いられるようにしてもよい。
 その他、収録音の解析により暗騒音のレベルが得られる場合、暗騒音解析部132が周波数帯域ごとにコンテンツ音と暗騒音のレベルを比較し、その比較結果に応じて再生レベル調整部23が周波数帯域ごとにマスキング音の再生レベルを決定してもよい。この場合、周波数帯域ごとにコンテンツ音が暗騒音を超えて漏れ出るレベルを推定することができるので、より確実に漏れ音を聴覚特性上でマスキングすることができるようになる。
〈第5の実施の形態〉
〈コンテンツ再生システムの構成例〉
 ところで、例えば上述した第4の実施の形態や、第4の実施の形態の変形例1では、無音区間となるタイミングの収録音から暗騒音レベルを算出したり、コンテンツ音が混入した収録音を解析に用いたりしていた。
 しかし、例えばコンテンツが音楽である場合など、コンテンツ音が持続し、無音区間がない、または無音区間が少ない場合には暗騒音のみを収録音として取得することは困難である。また、マイクロホン121を分割領域間の位置に設置することができない場合も想定される。
 そこで、コンテンツ音も含む収録音に対してエコーキャンセルを行うことにより、コンテンツ音が含まれていない収録音、つまり暗騒音のみを取得できるようにしてもよい。
 そのような場合、コンテンツ再生システムは、例えば図18に示すように構成される。なお、図18において図14における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図18に示すコンテンツ再生システムは、マイクロホン121、信号処理装置11、およびスピーカアレイ12を有している。
 また、図18に示す信号処理装置11の構成は、図14に示した信号処理装置11の構成に加えて新たにエコーキャンセル部161が設けられた構成となっており、その他の点では図14の信号処理装置11と同じ構成とされている。
 図18に示す信号処理装置11では、AD変換部131と暗騒音解析部132との間にエコーキャンセル部161が設けられている。
 エコーキャンセル部161は、供給されたコンテンツ音データに基づいて、AD変換部131から供給された収録音に対してエコーキャンセルを行い、エコーキャンセル後の収録音を暗騒音解析部132に供給する。
 エコーキャンセル部161では、エコーキャンセルフィルタにより収録音に対してフィルタリング処理を行うことで、収録音からコンテンツ音をキャンセルするエコーキャンセルが実現される。
 このとき、エコーキャンセル部161は、マイクロホン121で収音された収録音とコンテンツ音とを入力とし、収録音からコンテンツ音をキャンセル(消去)して暗騒音のみを出力するように、内部のエコーキャンセルフィルタを更新する。
 エコーキャンセルフィルタの更新アルゴリズムは、例えば一般的なLMS(Least Mean Square)やNLMS(Normalized LMS)などとすることができる。
 暗騒音解析部132は、エコーキャンセル部161から供給された収録音のレベル等の解析を行い、その解析結果をマスキング音生成部21および再生レベル調整部23に供給する。
 マスキング音生成部21は、暗騒音解析部132から供給された解析結果に基づいてマスキング音を生成し、波面合成フィルタ部51に供給する。例えばマスキング音生成部21では、図15に示したパラメータテーブルを用いたり、予め学習により得られた予測器を用いたりしてマスキング音を生成する。
 再生レベル調整部23は、暗騒音解析部132から供給された解析結果、および供給されたコンテンツ音データの少なくとも何れか一方に基づいて、マスキング音とコンテンツ音の再生レベルの調整を制御する。
 例えば再生レベル調整部23は、暗騒音解析部132から供給された解析結果としての暗騒音レベルと、予め保持している図15に示したパラメータテーブルとに基づいて、コンテンツ音の再生レベル、およびマスキング音の再生レベルを決定する。
〈コンテンツ再生処理の説明〉
 以上のような図18に示したコンテンツ再生システムでは、図19に示すコンテンツ再生処理が行われる。すなわち、以下、図19のフローチャートを参照して、図18に示したコンテンツ再生システムによるコンテンツ再生処理について説明する。
 ステップS131においてエコーキャンセル部161は、供給されたコンテンツ音データに基づいて、AD変換部131から供給された収録音に対してエコーキャンセルを行い、その結果得られたエコーキャンセル後の収録音を暗騒音解析部132に供給する。
 ステップS131では、任意のタイミングでマイクロホン121により収音された収録音に対してエコーキャンセルが行われる。これにより、収録音からコンテンツ音がキャンセルされ、暗騒音が取得(抽出)される。
 このようにして暗騒音が得られると、その後、ステップS132乃至ステップS139の処理が行われてコンテンツ再生処理は終了するが、これらの処理は図16のステップS101乃至ステップS108の処理と同様であるので、その説明は省略する。
 以上のようにしてコンテンツ再生システムは、エコーキャンセルを行うことで暗騒音を取得し、暗騒音の解析結果に基づいてマスキング音を生成するとともに、コンテンツ音やマスキング音の再生レベルを調整する。また、コンテンツ再生システムは、適切にレベル調整が行われたコンテンツ音とマスキング音を波面合成によって再生する。このようにすることで、簡単に漏れ音を聞こえにくくすることができる。
〈その他の変形例〉
〈コンテンツ再生システムの構成例〉
 さらに、以上において説明した第1の実施の形態乃至第5の実施の形態においては、コンテンツ音とマスキング音とが1つのスピーカアレイ12により再生される例について説明した。しかし、マスキング音とコンテンツ音とは、互いに異なるスピーカやスピーカアレイで再生されるようにしてもよいし、マスキング音のみを再生するスピーカやスピーカアレイが設けられるようにしてもよい。
 例えば図3に示した例において、スピーカアレイ12に加えて、マスキング音のみを再生するためのスピーカを新たに設けた場合、コンテンツ再生システムは図20に示すように構成される。なお、図20において図3における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図20に示すコンテンツ再生システムは、信号処理装置11、スピーカアレイ12、およびスピーカ191を有している。
 このコンテンツ再生システムは、図3に示したコンテンツ再生システムの構成に加えて新たにスピーカ191が設けられた構成となっている。
 また、図20に示す信号処理装置11の構成は、図3に示した信号処理装置11の構成に加えて新たにLPF(Low Pass Filter)201およびDA変換部202が設けられた構成となっており、その他の点では図3の信号処理装置11と同じ構成とされている。
 図20に示す信号処理装置11では、増幅部24から出力されたマスキング音は、加算部26だけでなくLPF201にも供給される。
 LPF201は、LPF(ローパスフィルタ)であり、増幅部24から供給されたマスキング音に対してローパスフィルタによるフィルタリング処理を行うことでマスキング音の低域成分のみを抽出し、DA変換部202に供給する。
 DA変換部202は、LPF201から供給されたマスキング音、より詳細にはマスキング音の低域成分に対してDA変換を行い、その結果得られたアナログ信号であるマスキング音をスピーカ191に供給して再生させる。この場合、DA変換部202は、マスキング音をスピーカ191から出力させる出力部として機能する。
 スピーカ191は、例えばスピーカアレイ12を構成するスピーカと比較して径が大きい低域再生用のスピーカなどからなり、DA変換部202から供給されたマスキング音を出力(再生)する。
 特に、この例では、スピーカアレイ12を構成するスピーカの径は、スピーカ191の径よりも小さくなっており、スピーカアレイ12ではマスキング音の低域成分を十分な音圧で再生することが困難である。そこで、コンテンツ再生システムでは、スピーカアレイ12によりマスキング音の中高域成分を再生し、スピーカ191でマスキング音の低域成分を再生するようになっている。
 なお、スピーカアレイ12ではマスキング音の再生は行わず、スピーカ191でのみマスキング音を再生するようにしても勿論よい。このようにマスキング音の少なくとも低域成分を、コンテンツ音の再生用のスピーカアレイ12とは異なる他のスピーカ191で再生することで、マスキング音を所望の周波数特性で再生することができる。
 以上のように、第1の実施の形態乃至その他の変形例において説明した本技術によれば、適切な再生レベルのマスキング音を再生することで、簡単に漏れ音を聞こえにくくすることができる。
 しかも本技術では、各分割領域において、他の分割領域からの漏れ込み音が聞こえにくくなるので、コンテンツ音の聴感上の分離度を向上させることができる。これにより、コンテンツの内容、つまりコンテンツにより提供される情報をより取得しやすくすることができる。
 一般的に、人の聴覚は小さな音でもそれが音声や音楽だと敏感に反応する。そのため、漏れ音がそのような音声や音楽である場合には、分割領域内にいる受聴者や、分割領域近傍にいる人には意識せずとも漏れ音が聞こえてしまい、不快に感じてしまう。そこで、本技術では、そのような漏れ音をマスキングすることにより、聴覚が漏れ音となったコンテンツ音に反応することがなくなるようにし、人が不快に感じることがないようにした。
 また、既存の技術では漏れ音を少なくするためにスピーカ数を多くする必要があったが、本技術では少ないスピーカ数でも漏れ音を聞こえにくくすることができるので、スピーカ数を少なくし、コストを削減することができる。
 さらに、本技術では、既存の技術のように音を打ち消す制御点にマイクロホンを設置する必要がなく、また外部センサとしてマイクロホンを用いる場合にもマイクロホン数は少なくて済む。したがって、コンテンツ再生システムの運用場所のレイアウトに自由度をもたせることができるだけでなく、マイクロホン等の機器のコストも削減することができる。
 その他、本技術では、コンテンツ音等を再生するスピーカの製造ばらつきや経年劣化、再生環境における音の反射および吸音によって、スピーカの音響ビームの放射特性にずれを生じた場合でも、そのずれにより生じる影響をマスキング音を再生することにより抑制(カバー)することができる。したがって、コンテンツ再生システムのメンテナンスのための時間や費用を削減することができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図21は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカアレイなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 スピーカアレイを用いた波面合成により、第1の領域で第1のコンテンツを再生し、第2の領域で第2のコンテンツを再生する場合に、前記第1の領域と前記第2の領域との間の領域において聞こえる前記第1のコンテンツの音および前記第2のコンテンツの音をマスキングするためのマスキング音を生成するマスキング音生成部を備える
 信号処理装置。
(2)
 前記スピーカアレイから前記マスキング音を出力させる出力部をさらに備える
 (1)に記載の信号処理装置。
(3)
 前記スピーカアレイとは異なるスピーカから前記マスキング音を出力させる出力部をさらに備える
 (1)または(2)に記載の信号処理装置。
(4)
 前記マスキング音の再生レベルは暗騒音のレベルよりも大きい
 (1)乃至(3)の何れか一項に記載の信号処理装置。
(5)
 前記マスキング音生成部により生成された前記マスキング音に対してフィルタリング処理を行うことで、波面合成により前記第1の領域と前記第2の領域との間のマスキング領域で前記マスキング音を再生するための複数の各チャンネルの音を生成する波面合成フィルタ部をさらに備える
 (1)乃至(4)の何れか一項に記載の信号処理装置。
(6)
 前記マスキング音生成部は、外部情報に基づいて前記マスキング音を生成する
 (1)乃至(5)の何れか一項に記載の信号処理装置。
(7)
 前記外部情報は、時間帯、曜日、来場者数、および天候のうちの少なくとも何れか1つを示す情報である
 (6)に記載の信号処理装置。
(8)
 少なくとも前記第1の領域および前記第2の領域の周囲の領域を被写体として含む画像から人を検出する検出部をさらに備え、
 前記マスキング音生成部は、前記検出部による人の検出結果に基づいて前記マスキング音を生成する
 (1)乃至(5)の何れか一項に記載の信号処理装置。
(9)
 周囲の暗騒音の特性を解析する解析部をさらに備え、
 前記マスキング音生成部は、前記特性の解析結果に基づいて前記マスキング音を生成する
 (1)乃至(5)の何れか一項に記載の信号処理装置。
(10)
 前記マスキング音生成部は、前記特性の解析結果に応じた周波数特性の前記マスキング音を生成する
 (9)に記載の信号処理装置。
(11)
 前記特性の解析結果に基づいて前記マスキング音の再生レベルを調整させる再生レベル調整部をさらに備える
 (9)または(10)に記載の信号処理装置。
(12)
 収音された周囲の音に対して、前記第1のコンテンツの音および前記第2のコンテンツの音に基づくエコーキャンセルを行うことで、前記暗騒音を抽出するエコーキャンセル部をさらに備える
 (9)乃至(11)の何れか一項に記載の信号処理装置。
(13)
 前記マスキング音生成部は、前記第1のコンテンツおよび前記第2のコンテンツの周波数特性に応じて、前記マスキング音の周波数特性を変化させる
 (1)乃至(12)の何れか一項に記載の信号処理装置。
(14)
 前記第1のコンテンツおよび前記第2のコンテンツの再生レベルに応じて、前記マスキング音の再生レベルを変化させる再生レベル調整部をさらに備える
 (1)乃至(13)の何れか一項に記載の信号処理装置。
(15)
 信号処理装置が、
 スピーカアレイを用いた波面合成により、第1の領域で第1のコンテンツを再生し、第2の領域で第2のコンテンツを再生する場合に、前記第1の領域と前記第2の領域との間の領域において聞こえる前記第1のコンテンツの音および前記第2のコンテンツの音をマスキングするためのマスキング音を生成する
 信号処理方法。
(16)
 スピーカアレイを用いた波面合成により、第1の領域で第1のコンテンツを再生し、第2の領域で第2のコンテンツを再生する場合に、前記第1の領域と前記第2の領域との間の領域において聞こえる前記第1のコンテンツの音および前記第2のコンテンツの音をマスキングするためのマスキング音を生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 信号処理装置, 12 スピーカアレイ, 21 マスキング音生成部, 22 波面合成フィルタ部, 23 再生レベル調整部, 24 増幅部, 25 増幅部, 51 波面合成フィルタ部, 91 認識部, 121 マイクロホン, 132 暗騒音解析部, 161 エコーキャンセル部

Claims (16)

  1.  スピーカアレイを用いた波面合成により、第1の領域で第1のコンテンツを再生し、第2の領域で第2のコンテンツを再生する場合に、前記第1の領域と前記第2の領域との間の領域において聞こえる前記第1のコンテンツの音および前記第2のコンテンツの音をマスキングするためのマスキング音を生成するマスキング音生成部を備える
     信号処理装置。
  2.  前記スピーカアレイから前記マスキング音を出力させる出力部をさらに備える
     請求項1に記載の信号処理装置。
  3.  前記スピーカアレイとは異なるスピーカから前記マスキング音を出力させる出力部をさらに備える
     請求項1に記載の信号処理装置。
  4.  前記マスキング音の再生レベルは暗騒音のレベルよりも大きい
     請求項1に記載の信号処理装置。
  5.  前記マスキング音生成部により生成された前記マスキング音に対してフィルタリング処理を行うことで、波面合成により前記第1の領域と前記第2の領域との間のマスキング領域で前記マスキング音を再生するための複数の各チャンネルの音を生成する波面合成フィルタ部をさらに備える
     請求項1に記載の信号処理装置。
  6.  前記マスキング音生成部は、外部情報に基づいて前記マスキング音を生成する
     請求項1に記載の信号処理装置。
  7.  前記外部情報は、時間帯、曜日、来場者数、および天候のうちの少なくとも何れか1つを示す情報である
     請求項6に記載の信号処理装置。
  8.  少なくとも前記第1の領域および前記第2の領域の周囲の領域を被写体として含む画像から人を検出する検出部をさらに備え、
     前記マスキング音生成部は、前記検出部による人の検出結果に基づいて前記マスキング音を生成する
     請求項1に記載の信号処理装置。
  9.  周囲の暗騒音の特性を解析する解析部をさらに備え、
     前記マスキング音生成部は、前記特性の解析結果に基づいて前記マスキング音を生成する
     請求項1に記載の信号処理装置。
  10.  前記マスキング音生成部は、前記特性の解析結果に応じた周波数特性の前記マスキング音を生成する
     請求項9に記載の信号処理装置。
  11.  前記特性の解析結果に基づいて前記マスキング音の再生レベルを調整させる再生レベル調整部をさらに備える
     請求項9に記載の信号処理装置。
  12.  収音された周囲の音に対して、前記第1のコンテンツの音および前記第2のコンテンツの音に基づくエコーキャンセルを行うことで、前記暗騒音を抽出するエコーキャンセル部をさらに備える
     請求項9に記載の信号処理装置。
  13.  前記マスキング音生成部は、前記第1のコンテンツおよび前記第2のコンテンツの周波数特性に応じて、前記マスキング音の周波数特性を変化させる
     請求項1に記載の信号処理装置。
  14.  前記第1のコンテンツおよび前記第2のコンテンツの再生レベルに応じて、前記マスキング音の再生レベルを変化させる再生レベル調整部をさらに備える
     請求項1に記載の信号処理装置。
  15.  信号処理装置が、
     スピーカアレイを用いた波面合成により、第1の領域で第1のコンテンツを再生し、第2の領域で第2のコンテンツを再生する場合に、前記第1の領域と前記第2の領域との間の領域において聞こえる前記第1のコンテンツの音および前記第2のコンテンツの音をマスキングするためのマスキング音を生成する
     信号処理方法。
  16.  スピーカアレイを用いた波面合成により、第1の領域で第1のコンテンツを再生し、第2の領域で第2のコンテンツを再生する場合に、前記第1の領域と前記第2の領域との間の領域において聞こえる前記第1のコンテンツの音および前記第2のコンテンツの音をマスキングするためのマスキング音を生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2019/029813 2018-08-13 2019-07-30 信号処理装置および方法、並びにプログラム WO2020036058A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2020537402A JPWO2020036058A1 (ja) 2018-08-13 2019-07-30 信号処理装置および方法、並びにプログラム
EP19849690.3A EP3839941A4 (en) 2018-08-13 2019-07-30 SIGNAL PROCESSING DEVICE AND METHOD AND PROGRAM
US17/266,486 US11462200B2 (en) 2018-08-13 2019-07-30 Signal processing apparatus and method, and program
KR1020217002890A KR20210043565A (ko) 2018-08-13 2019-07-30 신호 처리 장치 및 방법, 그리고 프로그램
CN201980051268.9A CN112513977A (zh) 2018-08-13 2019-07-30 信号处理装置与方法以及程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018152451 2018-08-13
JP2018-152451 2018-08-13

Publications (1)

Publication Number Publication Date
WO2020036058A1 true WO2020036058A1 (ja) 2020-02-20

Family

ID=69525469

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/029813 WO2020036058A1 (ja) 2018-08-13 2019-07-30 信号処理装置および方法、並びにプログラム

Country Status (6)

Country Link
US (1) US11462200B2 (ja)
EP (1) EP3839941A4 (ja)
JP (1) JPWO2020036058A1 (ja)
KR (1) KR20210043565A (ja)
CN (1) CN112513977A (ja)
WO (1) WO2020036058A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021245876A1 (ja) * 2020-06-04 2021-12-09 日本電信電話株式会社 スピーカキャリブレーション方法、装置及びプログラム
WO2023286413A1 (ja) * 2021-07-14 2023-01-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ エリア再生システム及びエリア再生方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220415299A1 (en) * 2021-06-25 2022-12-29 Nureva, Inc. System for dynamically adjusting a soundmask signal based on realtime ambient noise parameters while maintaining echo canceller calibration performance

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000295697A (ja) 1999-04-09 2000-10-20 Yamaha Corp 指向性拡声装置
JP2008103851A (ja) * 2006-10-17 2008-05-01 Yamaha Corp 音声出力装置
JP2011211266A (ja) * 2010-03-29 2011-10-20 Hitachi Omron Terminal Solutions Corp スピーカアレイ装置
JP2013073016A (ja) * 2011-09-28 2013-04-22 Onkyo Corp 音響再生装置
JP2013102389A (ja) 2011-11-09 2013-05-23 Sony Corp 音響信号処理装置と音響信号処理方法およびプログラム
JP2014102308A (ja) * 2012-11-19 2014-06-05 Konica Minolta Inc 音響出力装置
WO2016116330A1 (en) * 2015-01-20 2016-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Speech reproduction device configured for masking reproduced speech in a masked speech zone
JP2017161448A (ja) 2016-03-11 2017-09-14 株式会社インディ・アソシエイツ 案内装置
WO2018008396A1 (ja) * 2016-07-05 2018-01-11 ソニー株式会社 音場形成装置および方法、並びにプログラム
WO2018066384A1 (ja) * 2016-10-07 2018-04-12 ソニー株式会社 信号処理装置および方法、並びにプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9578440B2 (en) * 2010-11-15 2017-02-21 The Regents Of The University Of California Method for controlling a speaker array to provide spatialized, localized, and binaural virtual surround sound
US20130259254A1 (en) * 2012-03-28 2013-10-03 Qualcomm Incorporated Systems, methods, and apparatus for producing a directional sound field

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000295697A (ja) 1999-04-09 2000-10-20 Yamaha Corp 指向性拡声装置
JP2008103851A (ja) * 2006-10-17 2008-05-01 Yamaha Corp 音声出力装置
JP2011211266A (ja) * 2010-03-29 2011-10-20 Hitachi Omron Terminal Solutions Corp スピーカアレイ装置
JP2013073016A (ja) * 2011-09-28 2013-04-22 Onkyo Corp 音響再生装置
JP2013102389A (ja) 2011-11-09 2013-05-23 Sony Corp 音響信号処理装置と音響信号処理方法およびプログラム
JP2014102308A (ja) * 2012-11-19 2014-06-05 Konica Minolta Inc 音響出力装置
WO2016116330A1 (en) * 2015-01-20 2016-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Speech reproduction device configured for masking reproduced speech in a masked speech zone
JP2017161448A (ja) 2016-03-11 2017-09-14 株式会社インディ・アソシエイツ 案内装置
WO2018008396A1 (ja) * 2016-07-05 2018-01-11 ソニー株式会社 音場形成装置および方法、並びにプログラム
WO2018066384A1 (ja) * 2016-10-07 2018-04-12 ソニー株式会社 信号処理装置および方法、並びにプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BERKHOUT, AUGUSTINUS J.DIEMER DE VRIESPETER VOGEL: "Acoustic control by wave field synthesis", THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, vol. 93, no. 5, 1993, pages 2764 - 2778, XP000361413, DOI: 10.1121/1.405852
See also references of EP3839941A4

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021245876A1 (ja) * 2020-06-04 2021-12-09 日本電信電話株式会社 スピーカキャリブレーション方法、装置及びプログラム
JP7487773B2 (ja) 2020-06-04 2024-05-21 日本電信電話株式会社 スピーカキャリブレーション方法、装置及びプログラム
WO2023286413A1 (ja) * 2021-07-14 2023-01-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ エリア再生システム及びエリア再生方法

Also Published As

Publication number Publication date
JPWO2020036058A1 (ja) 2021-08-12
US20210241746A1 (en) 2021-08-05
US11462200B2 (en) 2022-10-04
KR20210043565A (ko) 2021-04-21
EP3839941A4 (en) 2021-10-06
CN112513977A (zh) 2021-03-16
EP3839941A1 (en) 2021-06-23

Similar Documents

Publication Publication Date Title
US9591410B2 (en) Hearing assistance apparatus
US9648436B2 (en) Augmented reality sound system
US8184823B2 (en) Headphone device, sound reproduction system, and sound reproduction method
JP5654513B2 (ja) 音識別方法および装置
WO2020036058A1 (ja) 信号処理装置および方法、並びにプログラム
JP2018506080A (ja) 音声マスキング・ゾーンにおいて再生された音声をマスキングする音声再生装置
JP2009510534A (ja) 人間のユーザに対して可聴騒音の知覚の削減をもたらすためのシステム
CN112306448A (zh) 根据环境噪声调节输出音频的方法、装置、设备和介质
Belyi et al. Integrated psychoacoustic active noise control and masking
KR20090082977A (ko) 음향 시스템, 음향 재생 장치, 음향 재생 방법, 스피커장착 모니터, 스피커 장착 휴대폰
JP7036008B2 (ja) 局所消音音場形成装置および方法、並びにプログラム
Bischof et al. Fast processing models effects of reflections on binaural unmasking
WO2021014935A1 (ja) 放音システム
Rämö et al. Perceptual frequency response simulator for music in noisy environments
JP2018137549A (ja) 頭外定位処理装置、頭外定位処理方法、及び頭外定位処理プログラム
US20230254630A1 (en) Acoustic output device and method of controlling acoustic output device
KR102196519B1 (ko) 소리 제거 시스템 및 이를 이용한 소리 제거 방법
KR102347626B1 (ko) 거리에 따른 개인화된 음장을 생성하는 방법 및 장치
JPWO2018066384A1 (ja) 信号処理装置および方法、並びにプログラム
Rämö Equalization techniques for headphone listening
Patel Acoustic Feedback Cancellation and Dynamic Range Compression for Hearing Aids and Its Real-Time Implementation
KR20200093576A (ko) 헬멧에서, 청취자의 청각적 인식 특성을 고려하여, 라이브 전관 방송을 수행하는 방법
KR20190136177A (ko) 소리 제거 시스템 및 이를 이용한 소리 제거 방법
JP3992596B2 (ja) 音声再生方法、音声再生装置および音声再生プログラム
Lin et al. Improving speech intelligibility in classrooms by decreasing sound energy of low frequency

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19849690

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020537402

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019849690

Country of ref document: EP

Effective date: 20210315