JP2012226113A - 秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム - Google Patents
秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム Download PDFInfo
- Publication number
- JP2012226113A JP2012226113A JP2011093584A JP2011093584A JP2012226113A JP 2012226113 A JP2012226113 A JP 2012226113A JP 2011093584 A JP2011093584 A JP 2011093584A JP 2011093584 A JP2011093584 A JP 2011093584A JP 2012226113 A JP2012226113 A JP 2012226113A
- Authority
- JP
- Japan
- Prior art keywords
- data
- spectrum
- value
- music
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
【解決手段】周波数解析処理32では、音声最大値スペクトルVv(j)及び音楽平均値スペクトルVm(j)を算出する。フィルタ関数作成処理33では、音声最大値スペクトルVv(j)に基づく値を、音楽平均値スペクトルVm(j)に基づく値によって互いに対応する周波数jごとに除した値である除算値スペクトルDiv(j)を算出し、更に、除算値スペクトルDiv(j)の各値に対して、互いに対応する周波数jごとに聴覚感度補正曲線L(j)に基づく値を乗算することにより、フィルタ関数F(j)を作成する。フィルタリング処理34では、各フレームfをフーリエ変換し、フィルタ関数F(j)を乗じ、フーリエ逆変換することによって、秘匿化データ7を生成する。
【選択図】図6
Description
人間は、カクテルパーティ効果によって、より大きな音源(BGM等)により部分的にマスクされた音声を補間して興味のある音声を聴取しようとする働きがある為、通常のBGMによって音声を完全に秘匿化することまでは期待できない。このような問題を解決する為に、(1)エネルギーマスキング、(2)インフォメーションマスキングという2つの手法が提案されている。
また、特許文献3、4に記載の手法では、マスキング音が人間に不快感を与えるとう問題が指摘されている。また、録音する為のマイクロホン、高速信号処理装置などが必要となり、コストがかかるという問題が指摘されている。尚、不快なマスキング音を和らげるために、更にBGMを合成するという手法も考えられるが、音圧が大きくなり煩わしくなるという別の問題が発生する。
特許文献5及び特許文献6では、BGM信号に対して音声に対するマスキング効果を強調させるためのフィルタ関数を設定するにあたり、代表的な音声信号の最大値スペクトルを使用するBGM音楽信号の平均値スペクトルで除算した値を基にしてフィルタ関数を設定する手法が提案されている。
尚、ヒト聴覚系の感度特性を示す等ラウドネス曲線は、フレッチャー&マンソンらによる計測データを基本にISO226として規格化されたものである。ISO226の規格は、1kHz以下の低い周波数帯域がよりヒト聴覚系の感度特性に合うように、更なる改良が行われている。
第1の発明によって、音声信号に対するマスキング効果を高めつつ、再生される音楽の音色を原音と同等に維持し、音量を絞って再生しても所定のマスキング効果を働かせることができる。
40フォンは、通常の音声や音楽を聴取する際の平均的なラウドネスレベルであり、適切なフィルタ関数を作成することができる。
これによって、離散的なスペクトル特性の状態を維持したまま、低域部を白色雑音のように若干平坦に近づけることができ、ひいては、音楽の音色を維持したまま、更にマスキング効果を高めることができる。
マスキングは、高音側(周波数が高域側)に働きやすいという性質がある為、音声最大値スペクトルVv(j)を、周波数jよりも高域側の範囲内の最大値に置換すれば、音声スペクトルを周波数方向に低音側に非線形シフトする補正を行っていることになり、ひいては、マスキング効果を高めることができる。
これによって、フィルタ関数が滑らかになり、ひいては、最終的に生成される秘匿化データが、人間にとって心地良い音楽データとなる。
これによって、人手を費やさずに、どの再生箇所においてもマスキング効果が満遍なく働く秘匿化データを生成することができる。
これによって、複数の音楽データに基づいて、複数の秘匿化データを生成することができる。
第2の発明によって、第1の発明の秘匿化データ生成装置を物理的に分離することができ、第1の発明の秘匿化データ生成装置を働かさなくても、あらかじめ作成された秘匿化データを随時再生することができる。
これによって、秘匿化対象位置に伝搬される過程で減衰する音波のエネルギー量が、対話音声に比べ記秘匿化データの方が小さくなり、相対的に秘匿化データのエネルギー量が対話音声に比べ大きくなるため、マスキング効果を高めることができる。
第3の発明によって、音声信号に対するマスキング効果を高めつつ、再生される音楽の音色を原音と同等に維持し、音量を絞って再生しても所定のマスキング効果を働かせることができる。
第4の発明によって、第2の発明の秘匿化データ生成方法を物理的に分離することができ、第2の発明の秘匿化データ生成方法を働かさなくても、あらかじめ作成された秘匿化データを随時再生することができる。
第5の発明を汎用のコンピュータにインストールすることによって、第1の発明の秘匿化データ生成装置または第3の発明の秘匿化データ生成方法を汎用コンピュータ上で実現することができる。
図1は、秘匿化装置1の概要図である。図1に示すように、秘匿化装置1は、少なくとも、秘匿化データ生成装置2及び音楽再生装置3から構成される。
秘匿化データ生成装置2は、例えば、コンピュータ等であり、対話音声を秘匿化するための音楽データである秘匿化データ7を生成する。秘匿化データ生成装置2の記憶部には、少なくとも音声データ4、音楽データ5、聴覚感度補正曲線6が記憶される。これらのデータについては後述する。
音楽再生装置3は、音楽プレーヤ及びスピーカから構成され、秘匿化データ7を再生する。音楽再生装置3の記憶部には、少なくとも秘匿化データ生成装置2によって生成される秘匿化データ7が記憶される。
また、秘匿化データ生成装置2及び音楽再生装置3は、図1に示すように有線によって接続されても良いし、無線によって接続されても良いし、ネットワークを介して接続されても良いし、接続されていなくても良い。
秘匿化データ生成装置2及び音楽再生装置3が接続されていない場合、秘匿化データ生成装置2は、秘匿化データ7を記憶媒体(CD、MD、USBメモリ、SDカードなどコンピュータ及び音楽プレーヤが読取可能な記憶媒体)に出力し、音楽再生装置3は、記憶媒体から秘匿化データ7を入力する。
ここで、本発明の実施の形態に係る秘匿化データ生成装置2が生成する秘匿化データ7は、受付カウンターと待合室の間に間仕切りが全く無くても、通常の音量によって、待合室にいる人が受付カウンターの対話音声の内容を聞き取ることができない程度に、秘匿化することが可能である。
音楽再生装置3が設置される音響空間としては、その他に、金融機関、保険会社、携帯電話店などのカウンターに隣接する待機スペース、法律事務所などの面談室に隣接する通路、企業などの応接室、飲食店などの個室などが挙げられる。
秘匿化データ生成装置2は、制御部21、記憶部22、メディア入出力部23、通信制御部24、入力部25、表示部26、周辺機器I/F部27等が、バス28を介して接続される。
CPUは、記憶部22、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス28を介して接続された各装置を駆動制御し、秘匿化データ生成装置2が行う後述する処理を実現する。
ROMは、不揮発性メモリであり、秘匿化データ生成装置2のブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。
RAMは、揮発性メモリであり、記憶部22、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部11が各種処理を行う為に使用するワークエリアを備える。
これらの各プログラムコードは、制御部21により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。
通信制御部24は、通信制御装置、通信ポート等を有し、秘匿化データ生成装置2とネットワーク間の通信を媒介する通信インタフェースであり、ネットワークを介して、他の装置間との通信制御を行う。ネットワークは、有線、無線を問わない。
入力部25を介して、秘匿化データ生成装置2に対して、操作指示、動作指示、データ入力等を行うことができる。
表示部26は、CRTモニタ、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携して秘匿化データ生成装置2のビデオ機能を実現するための論理回路等(ビデオアダプタ等)を有する。
バス28は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
図3では、横軸が周波数[Hz]、縦軸が音圧レベル[dB]であり、ラウドネスレベルごとに等ラウドネス曲線が定義される。図3では、0(最小可聴音場)、10、20、30、・・・、130[phon]の等ラウドネス曲線が図示されている。
本発明の実施の形態では、通常の音声や音楽を聴取する際の平均的なラウドネスレベルである40[phon]の等ラウドネス曲線を用いて、後述する「聴覚感度補正曲線」を定義する。尚、秘匿化データ7が再生される音響空間の環境がある程度予測できる場合、環境に合わせて等ラウドネス曲線を選択するようにしても良い。
図4では、各周波数に対する上段が、等ラウドネス曲線の音圧レベルを示しており、各周波数に対する下段が、500Hzを基準(0dB)とした時の聴覚感度補正曲線の音圧レベルを示している。例えば、周波数が20[Hz]に対して、等ラウドネス曲線の音圧レベルが90.0[dB]、聴覚感度補正曲線の音圧レベルが−53.0[dB]である。また、例えば、周波数が30[Hz]に対して、等ラウドネス曲線の音圧レベルが77.0[dB]、聴覚感度補正曲線の音圧レベルが−40.0[dB]である。
図4に示す例では、“聴覚感度補正曲線の音圧レベル(下段の値)=等ラウドネス曲線の音圧レベルの500Hzにおける極小値(=37.0)−等ラウドネス曲線の音圧レベル(上段の値)”によって、聴覚感度補正曲線の音圧レベルを求めている。
聴覚感度補正曲線の算出処理は、この例に限られず、例えば、図3の等ラウドネス曲線を、横軸に平行な所定の直線に従って折り返すことによって、聴覚感度補正曲線を求めても良い。また、聴覚感度補正曲線の基準とする周波数は、等ラウドネス曲線上の極小値になる500Hzに設定する必要もない。
ヒト聴覚系の感度は周波数に依存して変化し、4kHz近辺をピークに300Hz以下の低音または5kHz以上の高音になるほど感度が低下する特性をもつ。ところが、音声信号には音楽信号には比較的少ない5kHz〜10kHzの周波数帯の成分が多く含まれるため、フィルタ関数はこれらの周波数帯の成分を強調するように働く。この強調される周波数帯域はヒトの聴覚感度が比較的低い帯域であるため、再生時には聴覚感度が高い4kHz以下の周波数帯域を基準に音量を設定するようになる。そうすると、これに連動して5kHz〜10kHzの周波数帯の音量が不自然に大きくなり、全体的に騒がしくなる。そこで、後述するように、聴感特性曲線を重畳してフィルタ関数を生成することによって、5kHz〜10kHzの周波数帯の強調度合いが抑えられて不自然な音色になることを回避できる。また、ヒトの聴覚感度が高く音声を識別するためのフォルマント成分に富む300Hz〜3.4kHzの周波数帯が強調されることになり、再生音量をあまり上げなくてもマスキングが有効に働きやすくなる。
図5に示すように、秘匿化データ生成装置2の制御部21は、音声データ4及び音楽データ5を記憶部22に記憶する(S101)。音楽データ5は、複数記憶するようにしても良い。
音声データ4は、秘匿化対象の音響空間における対話音声ではなく、固定のサンプルデータとする。すなわち、本発明の実施の形態における秘匿化データ生成装置2は、リアルタイムにサンプリングされた秘匿化対象の対話音声は使用しない。音声データ4は、予め録音された種々の男声、女声が混在した対話音声である。
音楽データ5は任意である。例えば、聴取者にとって意味のあるメロディ・リズム・和声進行が含まれている必要は必ずしもなく、川のせせらぎ音などの自然音でもかまわない。秘匿化対象の対話音声に類似した周波数成分を多く含む音楽データであれば、マスキング効果が働きやすくなるので、マスキング効果を高めるという意味では、声楽データが含まれていることが望ましい。但し、声楽データが含まれると騒がしくなるため、器楽データのみであり、楽器編成が少ない室内楽曲などが現実的である。秘匿化データ生成装置2は、音楽データ5ごとに秘匿化データ7を生成する。
次に、秘匿化データ生成装置2の制御部21は、S102において選択された単一の音楽データ5に基づいて、秘匿化データ7の生成処理を行う(S103)。秘匿化データ7の生成処理の詳細は後述する。
S102及びS103の処理を繰り返し、複数の秘匿化データ7を生成するようにしても良い。
次に、音楽再生装置3は、単一の秘匿化データ7を選択する(S105)。秘匿化データ7の選択は、あらかじめ定義されたプレイリスト(再生プログラム)に基づいて自動的に行われるようにする方法が一般的であるが、ユーザが指示するようにしても良い。
次に、音楽再生装置3は、S105において選択された単一の秘匿化データ7を再生する(S106)。再生音量は、環境の変化に応じて、ユーザの指示により適宜変更される。
以下では、秘匿化データ7の生成処理の詳細について説明する。
ここでは、各処理の概要について説明し、詳細は後述する。
尚、Vv(j)の添え字「v」は、voiceの頭文字である。また、Vm(f、j)の添え字「m」は、musicの頭文字である。
音楽データ5は、フレーム単位の各瞬時スペクトル(位相成分は無視したエネルギー量)に対して、時間軸方向に瞬時スペクトルを平均化した音楽平均値スペクトルVm(j)に置換される。又は、音楽データ5は、フレームfごとに、前後所定のフレーム数に対応する瞬時スペクトルを平均化した音楽平均値スペクトルVm(f,j)に置換される。
例えば、サンプリング周波数Fsを「44100Hz」、サンプル数Nを「4096」とする。サンプリング周波数Fs及びサンプル数Nによって、音声データ4に含まれるフレーム数Fvが定まる。
フレーム抽出処理31では、秘匿化データ生成装置2の制御部21が、サンプリング周波数Fsのモノラル音声信号(ステレオの場合はLR(左右)の合算値とする。)に対して、各々N/2サンプル間隔ごとに(すなわち、N/2サンプル分ずつ重複する。)、N個ずつ、各々Fvフレーム抽出する。
次に、制御部21は、変換データの実部 Av(f、j)(f=0、・・・、Fv−1;j=0、・・・、N−1)、虚部Bv(f、j)(f=0、・・・、Fv−1;j=0、・・・、N−1)及び強度値の時系列の最大値スペクトルVv(j)を各々、次式のように算出する。
音声データ4と同様、サンプリング周波数Fsを「44100Hz」、サンプル数Nを「4096」とする。サンプリング周波数Fs及びサンプル数Nによって、音楽データ5に含まれるフレーム数Fmが定まる。
フレーム抽出処理31では、秘匿化データ生成装置2の制御部21が、サンプリング周波数Fsのモノラル音楽信号(ステレオの場合はLR(左右)の合算値とする。)に対して、各々N/2サンプル間隔ごとに(すなわち、N/2サンプル分ずつ重複する。)、N個ずつ、各々Fmフレーム抽出する。
次に、制御部21は、瞬時スペクトル算出処理41として、フレームごとに、位相成分は無視したエネルギー量である瞬時スペクトルを算出する。また、制御部21は、平均スペクトル算出処理42として、前後Mフレーム(M個)の瞬時スペクトルの平均値である平均スペクトルを算出する。
但し、音楽データ5の先頭部、すなわち、f<M/2の場合、前後M/2フレーム(M/2個)ずつの平均を取ることができないことから、Vm(f、j)=Vm(M/2、j)とする。同様に、音楽データ5の後尾部、すなわち、f>Fm−M/2の場合、前後M/2フレーム(M/2個)ずつの平均を取ることができないことから、Vm(f、j)=Vm(Fm−M/2−1、j)とする。
図7には、音楽フレームデータXm(f、i)のフレーム1〜フレームM+1に対して、周波数解析32aが行われ、フレーム1〜フレームMまでの時系列平均が算出され、フレームfに対する音楽平均値スペクトルVm(f、j)が算出されることが図示されている。同様に、図7には、フレーム2〜フレームM+1までの時系列平均が算出され、フレームf+1に対する音楽平均値スペクトルVm(f+1、j)が算出されることが図示されている。
臨界帯域幅補正処理43は、秘匿化データ生成装置2の制御部21が、音声最大値スペクトルVv(j)を、周波数jごとに所定の範囲内の最大値に置換することによって、単一の置換音声最大値スペクトルVv’(j)を作成する処理である。また、臨界帯域幅補正処理43は、フレームfごとに、音楽平均値スペクトルVm(f、j)を、周波数jごとに所定の範囲内の平均値に置換することによって、置換音楽平均値スペクトルVm’(f、j)を作成する処理である。
図9には、一例として、フレームfとフレームf+1に対する臨界帯域幅補正処理が示されている。
マスキングは、高音側(周波数が高域側)に働きやすいという性質がある為、音声最大値スペクトルVv(j)を、周波数jよりも高域側の範囲内の最大値に置換すれば、音声スペクトルを周波数方向に低音側に非線形シフトする補正を行っていることになり、ひいては、マスキング効果を高めることができる。
除算処理44は、秘匿化データ生成装置2の制御部21が、フレームfごとに、音声最大値スペクトルVv(j)に基づく値を音楽平均値スペクトルVm(j)に基づく値によって互いに対応する周波数jごとに除した値を除算値スペクトルDiv(f、j)として算出する処理である。特に、制御部21は、フレームfごとに、置換音声最大値スペクトルVv’(j)を置換音楽平均値スペクトルVm’(f、j)によって除した値を除算値スペクトルDiv(f、j)とすることが望ましい。
図10には、一例として、フレームfとフレームf+1に対する除算処理が示されている。
聴覚感度補正処理45は、除算値スペクトルDiv(f,j)の各値に対して、互いに対応する周波数jごとに聴覚感度補正曲線L(j)に基づく値を乗算することにより、補正除算値スペクトルDiv’(f、j)を作成する処理である。
図11には、一例として、フレームfとフレームf+1に対する聴覚感度補正処理が示されている。
例えば、制御部21は、図4の下段に示す値を変数dBに代入し、倍率値として10dB/20を算出し、この倍率値を乗算する。
また、聴覚感度補正曲線L(j)は、等ラウドネス曲線をマイナス側に適宜オフセットを加えて、符号を反転させるようにしても良い。オフセットを加える理由は、単に符号を反転すると、波形振幅が増幅されてしまうからである。
尚、制御部21は、聴覚感度補正曲線L(j)を複数回乗算しても良い。
図11には、一例として、フレームfとフレームf+1に対する平滑化処理が示されている。
F(f、j)の上限値と下限値は予め設定しておく。例えば、中央値を1とすると、上限値を10倍の「10」、下限値を1/10の「0.1」とする。除算結果が上限値を上回る場合、又は、下限値を下回る場合、制御部21は、それぞれ、F(f、j)に上限値又は下限値を設定する。
図11に示すように、平滑化処理46を行うことで、フィルタ関数F(f、j)は、極値が少なく、滑らかな関数となっている。
前述の周波数解析処理32及びフィルタ関数作成処理33では、実数値に対して計算を行っているが、フィルタリング処理34では、複素数値をもつ瞬時スペクトルに対して計算を行う。
図12には、一例として、フレームfとフレームf+1に対するフーリエ変換処理が示されている。
図12には、一例として、フレームfとフレームf+1に対するフィルタ関数乗算処理が示されている。
周波数次元圧縮処理49は、フレームfごとに、フィルタ関数F(j)が乗算された複素スペクトルに対して、所定の周波数の範囲の中で複素スペクトルの最大スカラー値を求め、更に、複素スペクトルの各要素に対して、当該要素のスカラー値が最大スカラー値を超えない範囲内において所定の1以上のスケール値を乗算させる補正を施し、再改変複素スペクトルを算出する処理である。
図13には、一例として、フレームfとフレームf+1に対する周波数次元圧縮処理が示されている。
聴覚感度補正処理45を行ってフィルタ関数を作成すると、そのフィルタ関数を用いてフィルタリング処理が行われた音楽信号は、スペクトル特性が1/fから1/f2特性に近づき、低域部の勾配が急峻になる。音楽信号は元々離散的な周波数特性をもつが、このようにフィルタリング処理が行われた音楽信号は、最も効果的にマスキングが働く白色雑音の特性から程遠いことになる。
一方、例えば、特開2010−031501において提案されているエアコンノイズは、1/fカーブの連続スペクトル特性をもち、平坦な特性をもつ白色ノイズに比べマスキング効果は若干小さくなる程度である。しかし、音楽信号を連続的なスペクトルに変換させるとノイジーな不快感を加えることになり、音楽ではなくなってしまう。
そこで、本発明の実施の形態では、周波数次元圧縮処理49によって、離散的なスペクトル特性の状態を維持したまま、低域部を白色雑音のように若干平坦に近づける。これによって、音楽の音色を維持したまま、マスキング効果を高めることができる。
時間次元圧縮処理が施されると、全体的に音圧が大きくなり、時間的起伏が少なくなる。つまり、時間次元圧縮処理を施すことによって生成される秘匿化データ7は、人間にとって煩わしく感じるものとなる。また、周波数特性には大きな変化が無いため、全体的にマスキング効果の増大はあまり期待できない。
一方、周波数次元圧縮処理49が施されると、フラットな白色雑音特性が増える。また、時間的な振幅変化は維持される。つまり周波数次元圧縮処理49を施すことによって生成される秘匿化データ7は、マスキング効果が高まると共に、人間にとって煩わしく感じることはない。
フーリエ逆変換処理50では、制御部21は、変換対象のフレームfの秘匿化フレームデータXml’(f、i)及びXmr’(f、i)に対して、直前に変換されたフレームf−1の秘匿化フレームデータXml’(f−1、i)及びXmr’(f−1、i)が存在する場合、両者が時間軸においてN/2サンプル分重複することを考慮し、次式のように計算を行う。
また、本発明の実施の形態におけるフィルタリング処理34では、フレームfごとに、フィルタ関数F(j)が乗算された複素スペクトルに対して、所定の周波数の範囲の中で複素スペクトルの最大スカラー値を求め、更に、複素スペクトルの各要素に対して、当該要素のスカラー値が前記最大スカラー値を超えない範囲内において所定の1以上のスケール値を乗算させる補正を施した後、フーリエ逆変換を行う。これによって、音楽の音色を維持したまま、更にマスキング効果を高めることができる。
そして、本発明の実施の形態では、フィルタ加工を施すことによりBGM音楽の音色が不自然に変化することを避けることができ、従来よりもBGM音楽の再生音量を抑えながら、従来と同等以上のマスキング効果を働かせることができ、従来よりも静かで快適な音響環境で秘匿化効果を向上させることができる。
図15に示す例では、平面スピーカ51a及び51bを挟んで左側が面談スペース60であり、右側が待合スペース65になっている。
面談スペース60には、面談カウンターテーブル61、店員用椅子62、来客用椅子63等が設置されている。面談カウンターテーブル61は、パーティション64によって区切られている。また、待合スペース65には、待合ソファー65が設置されている。顧客は、来店すると待合スペース65において待機し、順番に面談スペース60に呼ばれて店員と面談する。
平面スピーカ51a及び51bのパネルは、待合スペース65より面談カウンターテーブル61にいる店員や来客が覗き込めないパーティション程度の大きさがあること望ましいが、A3サイズ程度の面積しかない立て看板などでも十分に効果を発揮する。すなわち、会話音声71が、平面スピーカ51a及び51bに物理的に遮られることなく、待合ソファー65まで到達しても、本発明の秘匿化データ7によって十分なマスキング効果が得られる。
尚、ポスラ(本出願人の登録商標)サウンドパネルは、横幅1メートル程度まで製作可能である。
図15に示す例では、平面スピーカ51a及び51bが、それぞれ、マスカー音であるBGMサウンドL72a及びBGMサウンドR72bを出力している(ステレオ再生)。尚、BGMサウンドは、モノラル再生でも良く、平面スピーカの数や配置位置は、環境に応じて適宜変更すれば良い。
図15に示すように、会話音声71は、球面波の音波として、観測位置である待合スペース65に到達する。同様に、通常のダイナミックスピーカから再生されるBGMも、球面波の音波である。
ここで、球面波の場合、距離の2乗に比例して伝搬される表面積が大きくなり音源に集中していたエネルギーが分散するため、エネルギー(音圧)が距離の2乗に反比例して減衰していくことが知られている。一方、平面波の場合、距離が離れてもエネルギーがあまり減衰しない。
一方、平面波に近い音波を放射する平面スピーカ51a及び51bを用いれば、再生されるBGMサウンドL72a、BGMサウンドR72bは、平面波の音波であり、離れてもエネルギーがあまり減衰しないから、面談スペース60により近い位置に待機している顧客に合わせて音量を調節しても、面談スペース60により遠い位置に待機している顧客に対して十分なマスキング効果が働く。
図16に示す例では、平面スピーカ51c及び51dを挟んで左側が第1応接スペース81aであり、右側が第2応接スペース81bになっている。
第1応接スペース81a及び第2応接スペース81bには、それぞれ、1つの応接テーブル82と4つの椅子83が設置されている。
第1応接スペース81a及び第2応接スペース81bでは、それぞれ独立して、別々の顧客を応接するようになっている。
平面スピーカ51c及び51dには、複数のスピーカ(エキサイタ)を備えており、それぞれのスピーカから、マスカー音であるBGMサウンドL72a、BGMサウンドR72bが出力される。
第1の設置例と同様、平面スピーカ51c及び51dは、音楽プレーヤ52によって、秘匿化データ7の波面が平面波に近い音波として、平面から均一に放射する機構を有することが望ましい。
第1会話音声71aに対しては、第2応接スペース81bにおいて、平面スピーカ51dから出力されるBGMサウンドL72a、BGMサウンドR72bがマスカー音となり、マスキング効果を発揮する。同様に、第2会話音声71bに対しては、第1応接スペース81aにおいて、平面スピーカ51cから出力されるBGMサウンドL72a、BGMサウンドR72bがマスカー音となり、マスキング効果を発揮する。
また、平面スピーカは、A3サイズ程度の立て看板から、横幅1メートル程度のパーティションまで、様々な態様とすることができる。
また、平面スピーカのパネル面の絵柄としては、壁紙などのインテリア素材やポスター広告を用いることができ、視覚的にもスピーカがむき出しになるようなインテリア上の不自然さを回避することができる。
実施例では、聴覚感度補正処理45、圧縮処理49を行って、秘匿化データ7を生成した。一方、比較例では、聴覚感度補正処理45、圧縮処理49を行わずに、秘匿化データを生成した。
図18を参照すると、この音楽平均値スペクトルは、1/fの曲線に近いことが分かる。
後述する図22と比較して、図19を参照すると、5kHz〜10kHzの周波数成分の値が高いことが分かる。この為、比較例のフィルタ関数を用いてフィルタリング処理を行うと、ヒト音声信号成分が多く含まれる5kHz〜10kHzの周波数成分が強調され易い。5kHz〜10kHzの周波数帯域は、ヒト聴覚系の感度特性が比較的低い領域ではあるが、このフィルタ関数を用いて音楽信号にフィルタ加工を施すと、音色が不自然に変化して煩くなる。
図20に示す音楽信号は、前述したように、音色が不自然に変化して煩わしく感じる。
また、後述する図23、図24と比較して、図20を参照すると、10kHz以上の高域部が高い値になっている。10kHz以上の周波数成分はヒト音声信号成分がそれなりに存在するが、ヒトの聴覚感度が低いため、マスキングにあまり寄与しない。従って、聴覚感度が高い4kHz以下の帯域を基準に再生音量を設定することになり、不必要に全体の音圧レベルを上げてしまうことになる。従って、かなり音量を上げないと、マスキング効果が得られ難い。
図19と比較して、図22を参照すると、5kHz〜10kHzの周波数成分の値が低いことが分かる。この為、実施例のフィルタ関数を用いてフィルタリング処理34を行うと、5kHz〜10kHzの周波数帯の強調度合いが抑えられて不自然な音色になることを回避できる。また、ヒトの聴覚感度が高く音声を識別するためのフォルマント成分に富む300Hz〜3.4kHzの周波数帯が強調されることになり、再生音量をあまり上げなくてもマスキングが有効に働きやすくなる。
図23に示す音楽信号は、前述したように、5kHz〜10kHzの周波数帯の強調度合いが抑えられて自然な音色となっている。また、ヒトの聴覚感度が高く音声を識別するためのフォルマント成分に富む300Hz〜3.4kHzの周波数帯が強調され、再生音量をあまり上げなくてもマスキングが有効に働く。
図24に示す音楽信号は、前述したように、5kHz〜10kHzの周波数帯の強調度合いが抑えられて自然な音色となっている。また、ヒトの聴覚感度が高く音声を識別するためのフォルマント成分に富む300Hz〜3.4kHzの周波数帯が強調され、再生音量をあまり上げなくてもマスキングが有効に働く。
更に、図23と比較して、図24を参照すると、低域部が離散的な値を取りながら、全体として平坦になっていることが分かる。つまり、離散的なスペクトル特性の状態を維持したまま、低域部を白色雑音のように若干平坦に近づけることができている。これによって、音楽の音色を維持したまま、マスキング効果を高めることができる。
2………秘匿化データ生成装置
3………音楽再生装置
4………音声データ
5………音楽データ
6………聴覚感度補正曲線
7………秘匿化データ
10………音声フレーム群
11………音楽フレーム群
12………音声最大値スペクトルデータ
13………音声平均値スペクトルデータ
14………フィルタ関数データ
31………フレーム抽出処理
32………周波数解析処理
32a………周波数解析
33………フィルタ関数作成処理
34………フィルタリング処理
41………瞬時スペクトル算出処理
42………平均スペクトル算出処理
43………臨界帯域幅補正処理
44………除算処理
45………聴覚感度補正処理
46………平滑化処理
47………フーリエ変換処理
48………フィルタ関数乗算処理
49………周波数次元圧縮処理
50………フーリエ逆変換処理
Claims (12)
- 対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成装置であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析手段と、
前記音声最大値スペクトルVv(j)に基づく値を、前記音楽平均値スペクトルVm(j)に基づく値によって互いに対応する周波数jごとに除した値である除算値スペクトルDiv(j)を算出し、更に、前記除算値スペクトルDiv(j)の各値に対して、互いに対応する周波数jごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線L(j)に基づく値を乗算することにより、フィルタ関数F(j)を作成するフィルタ関数作成手段と、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数F(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、
を具備することを特徴とする秘匿化データ生成装置。 - 前記フィルタ関数作成手段が用いる前記聴覚感度補正曲線L(j)は、40フォンの等ラウドネス曲線に基づいて定義される
ことを特徴とする請求項1に記載の秘匿化データ生成装置。 - 前記フィルタリング手段は、フレームfごとに、前記フィルタ関数F(j)が乗算された複素スペクトルに対して、所定の周波数の範囲の中で前記複素スペクトルの最大スカラー値を求め、更に、前記複素スペクトルの各要素に対して、当該要素のスカラー値が前記最大スカラー値を超えない範囲内において所定の1以上のスケール値を乗算させる補正を施した後、前記フーリエ逆変換を行う
ことを特徴とする請求項1又は請求項2に記載の秘匿化データ生成装置。 - 前記フィルタ関数作成手段は、
前記音声最大値スペクトルVv(jc)(jcは特定の周波数)を、周波数jcよりも高域側の範囲内の最大値に置換することによって、置換音声最大値スペクトルを算出し、
前記音楽平均値スペクトルVm(jc)を、周波数jcの前後の範囲内の平均値に置換することによって、置換音楽平均値スペクトルを算出し、
前記置換音声最大値スペクトルを前記置換音楽平均値スペクトルによって除した値を、前記除算値スペクトルDiv(j)とする
ことを特徴とする請求項1乃至請求項3のいずれかに記載の秘匿化データ生成装置。 - 前記フィルタ関数作成手段は、前記フィルタ関数F(j)の各値に対して前記聴覚感度補正曲線L(j)に基づく値を乗算した後、周波数jの前後の範囲内の平均値に置換することによって、前記フィルタ関数F(j)を平滑化する
ことを特徴とする請求項1乃至請求項4のいずれかに記載の秘匿化データ生成装置。 - 前記周波数解析手段は、前記音楽平均値スペクトルVm(f,j)として、前記音楽データの各フレームfの前後Mフレームに渡って時間軸方向に平均化したスペクトルをフレームfごとに算出し、
前記フィルタ関数作成手段は、前記除算値スペクトルDiv(f,j)として、前記音声最大値スペクトルVv(j)に基づく値を、フレームfに対応する前記音楽平均値スペクトルVm(f,j)に基づく値によって互いに対応する周波数jごとに除した値を算出し、更に、前記除算値スペクトルDiv(f,j)の各値に対して、互いに対応する周波数jごとに前記聴覚感度補正曲線L(j)に基づく値を乗算することにより、前記フィルタ関数F(f,j)を作成する
ことを特徴とする請求項1乃至請求項5のいずれかに記載の秘匿化データ生成装置。 - 複数の前記音楽データを記憶する音楽データ記憶手段と、
前記音楽データ記憶手段によって記憶されている前記音楽データの中から単一の前記音楽データを選択する音楽データ選択手段と、
を更に具備し、
前記音楽データ選択手段によって選択された単一の前記音楽データに基づいて、前記秘匿化データを生成する
ことを特徴とする請求項1乃至請求項6のいずれかに記載の秘匿化データ生成装置。 - 請求項1乃至請求項7のいずれかに記載の秘匿化データ生成装置が生成する複数の前記秘匿化データを記憶する秘匿化データ記憶手段と、
前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択手段と、
前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生手段と、
を具備することを特徴とする秘匿化装置。 - 請求項8に記載の前記秘匿化データ再生手段が前記秘匿化データを波面が平面波に近い音波として所定平面から均一に放射する機構をもつ平面型スピーカによって構成されている
ことを特徴とする秘匿化装置。 - 対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成方法であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、
前記音声最大値スペクトルVv(j)に基づく値を、前記音楽平均値スペクトルVm(j)に基づく値によって互いに対応する周波数jごとに除した値である除算値スペクトルDiv(j)を算出し、更に、前記除算値スペクトルDiv(j)の各値に対して、互いに対応する周波数jごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線L(j)に基づく値を乗算することにより、フィルタ関数F(j)を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数F(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、
を含むことを特徴とする秘匿化データ生成方法。 - 請求項10に記載の秘匿化データ生成方法によって生成する複数の前記秘匿化データを記憶する秘匿化データ記憶ステップと、
前記秘匿化データ記憶ステップによって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択ステップと、
前記秘匿化データ選択ステップによって選択された単一の前記秘匿化データを再生する秘匿化データ再生ステップと、
を含むことを特徴とする秘匿化方法。 - コンピュータに、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、
前記音声最大値スペクトルVv(j)に基づく値を、前記音楽平均値スペクトルVm(j)に基づく値によって互いに対応する周波数jごとに除した値である除算値スペクトルDiv(j)を算出し、更に、前記除算値スペクトルDiv(j)の各値に対して、互いに対応する周波数jごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線L(j)に基づく値を乗算することにより、フィルタ関数F(j)を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数F(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、
を実行させるためのコンピュータ読取可能なプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011093584A JP5741175B2 (ja) | 2011-04-20 | 2011-04-20 | 秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011093584A JP5741175B2 (ja) | 2011-04-20 | 2011-04-20 | 秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012226113A true JP2012226113A (ja) | 2012-11-15 |
JP5741175B2 JP5741175B2 (ja) | 2015-07-01 |
Family
ID=47276353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011093584A Expired - Fee Related JP5741175B2 (ja) | 2011-04-20 | 2011-04-20 | 秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5741175B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021241301A1 (ja) | 2020-05-28 | 2021-12-02 | コベルコ建機株式会社 | 締固め管理システム |
JP7145596B2 (ja) | 2017-09-15 | 2022-10-03 | 株式会社Lixil | 擬音装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10135755A (ja) * | 1996-10-25 | 1998-05-22 | Sharp Corp | オーディオ装置 |
JP2005084645A (ja) * | 2003-09-11 | 2005-03-31 | Glory Ltd | マスキング装置 |
JP2008203716A (ja) * | 2007-02-22 | 2008-09-04 | Matsushita Electric Ind Co Ltd | 車載用音響再生装置 |
JP2009510534A (ja) * | 2005-10-03 | 2009-03-12 | マイサウンド エーピーエス | 人間のユーザに対して可聴騒音の知覚の削減をもたらすためのシステム |
-
2011
- 2011-04-20 JP JP2011093584A patent/JP5741175B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10135755A (ja) * | 1996-10-25 | 1998-05-22 | Sharp Corp | オーディオ装置 |
JP2005084645A (ja) * | 2003-09-11 | 2005-03-31 | Glory Ltd | マスキング装置 |
JP2009510534A (ja) * | 2005-10-03 | 2009-03-12 | マイサウンド エーピーエス | 人間のユーザに対して可聴騒音の知覚の削減をもたらすためのシステム |
JP2008203716A (ja) * | 2007-02-22 | 2008-09-04 | Matsushita Electric Ind Co Ltd | 車載用音響再生装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7145596B2 (ja) | 2017-09-15 | 2022-10-03 | 株式会社Lixil | 擬音装置 |
WO2021241301A1 (ja) | 2020-05-28 | 2021-12-02 | コベルコ建機株式会社 | 締固め管理システム |
Also Published As
Publication number | Publication date |
---|---|
JP5741175B2 (ja) | 2015-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5955340B2 (ja) | 音響システム | |
TW381403B (en) | Apparatus and method for bass enhancement | |
JP5103974B2 (ja) | マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム | |
Monson et al. | Detection of high-frequency energy changes in sustained vowels produced by singers | |
WO2006093019A1 (ja) | 音声処理方法と装置及び記憶媒体並びに音声システム | |
TW200837718A (en) | Apparatus and method for generating an ambient signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program | |
Luizard et al. | Perceptual thresholds for realistic double-slope decay reverberation in large coupled spaces | |
Bai et al. | Synthesis and implementation of virtual bass system with a phase-vocoder approach | |
KR100813272B1 (ko) | 스테레오 스피커를 이용한 저음 보강 장치 및 방법 | |
JP2014130251A (ja) | 会話保護システム及び会話保護方法 | |
Akagi et al. | Privacy protection for speech based on concepts of auditory scene analysis | |
JP5741175B2 (ja) | 秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム | |
JP5707944B2 (ja) | 快音化データ生成装置、快音化データ生成方法、快音化装置、快音化方法及びプログラム | |
Jeon et al. | The effect of visual and auditory cues on seat preference in an opera theater | |
Assmann et al. | Relationship between fundamental and formant frequencies in voice preference | |
JP5648485B2 (ja) | 秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム | |
Rämö et al. | Perceptual frequency response simulator for music in noisy environments | |
JP2015034932A (ja) | 秘匿化データ生成装置、秘匿化装置およびプログラム | |
JP2012008393A (ja) | 音声変更装置、音声変更方法および音声情報秘話システム | |
Pätynen et al. | The acoustics of vineyard halls, is it so great after all? | |
JP2005286876A (ja) | 環境音提示装置及び補聴器調整装置 | |
Vilkamo | Spatial sound reproduction with frequency band processing of b-format audio signals | |
JP5644268B2 (ja) | 秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム | |
JP4900062B2 (ja) | 音声信号処理装置、音声再生装置および音声信号処理方法 | |
JP6232710B2 (ja) | 録音音声の明瞭化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150331 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150413 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5741175 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |