JP2012226113A

JP2012226113A - 秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム

Info

Publication number: JP2012226113A
Application number: JP2011093584A
Authority: JP
Inventors: Toshio Modegi; 敏雄茂出木
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2011-04-20
Filing date: 2011-04-20
Publication date: 2012-11-15
Anticipated expiration: 2031-04-20
Also published as: JP5741175B2

Abstract

【課題】音声信号に対するマスキング効果を高めつつ、再生される音楽の音色を原音と同等に維持し、音量を絞って再生しても所定のマスキング効果を働かせる。
【解決手段】周波数解析処理３２では、音声最大値スペクトルＶｖ（ｊ）及び音楽平均値スペクトルＶｍ（ｊ）を算出する。フィルタ関数作成処理３３では、音声最大値スペクトルＶｖ（ｊ）に基づく値を、音楽平均値スペクトルＶｍ（ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｊ）を算出し、更に、除算値スペクトルＤｉｖ（ｊ）の各値に対して、互いに対応する周波数ｊごとに聴覚感度補正曲線Ｌ（ｊ）に基づく値を乗算することにより、フィルタ関数Ｆ（ｊ）を作成する。フィルタリング処理３４では、各フレームｆをフーリエ変換し、フィルタ関数Ｆ（ｊ）を乗じ、フーリエ逆変換することによって、秘匿化データ７を生成する。
【選択図】図６

Description

本発明は、対話音声を秘匿化する音楽データを生成する秘匿化データ生成装置等に関するものである。

医療機関（調剤薬局などの受付カウンター）、金融機関・保険会社の相談カウンター、法律事務所などの面談室、携帯電話店のカウンター、会食に使われる飲食店などにおいて交わされる対話音声は、第３者に聴取されることが好ましくない個人情報や企業の機密情報が含まれることが少なくない。しかしながら、従来は、簡易的な間仕切りのみによって済ませている施設が多い。これは、事務所や店のスペース・コストの制約から、カラオケボックスのように遮音機能をもつ什器を導入したり、内装工事を行ったりすることは必ずしも容易ではないからである。そこで、現状設備に殆ど手を加えることなく、対話音声を秘匿化する手法が求められている。

音を秘匿化する手法の１つとして、電気的に消音する能動消音法（ＡＮＣ：ＡｃｔｉｖｅＮｏｉｓｅＣｏｎｔｒｏｌ：特許文献１参照）があるが、対象は定常的な騒音に限定されるため、音声のように時間変化が顕著な音には適用できない。

もう１つの音を秘匿化する手法として、ＢＧＭ（ＢａｃｋＧｒｏｕｎｄＭｕｓｉｃ）を利用する手法がある。例えば、ショッピングセンター、カクテルパーティ、飲食店などではＢＧＭが流れていることが多い。これは、人間の聴覚マスキング効果を活用して雑踏騒音を和らげることを意図している。しかし、人間はカクテルパーティ効果と呼ばれる、聴覚マスキング効果とは全く逆の特性も備えている。カクテルパーティ効果とは、カクテルパーティのように多くの人がそれぞれ雑談している中でも、自分が興味のある人の会話などは自然に聴き取ることができるという音声の選択的聴取のことである。
人間は、カクテルパーティ効果によって、より大きな音源（ＢＧＭ等）により部分的にマスクされた音声を補間して興味のある音声を聴取しようとする働きがある為、通常のＢＧＭによって音声を完全に秘匿化することまでは期待できない。このような問題を解決する為に、（１）エネルギーマスキング、（２）インフォメーションマスキングという２つの手法が提案されている。

（１）エネルギーマスキングについては、例えば、特許文献２に記載されている。特許文献２には、白色雑音（少なくとも可聴域にて、パワーが周波数によらず略均一な傾向を有した雑音）等をマスキング音として流し、聴覚マスキング効果によって音声等をマスキングすることが記載されている。

（２）インフォメーションマスキングについては、例えば、特許文献３、４に記載されている。特許文献３には、ある音響空間に設置されたマイクロホンから音信号を受取り、受け取った音信号にスクランブルをかけてマスキングサウンドを生成し、他の音響空間（音声信号が漏洩して欲しくない空間）に放音することが記載されている。また、特許文献４には、リアルタイムに録音された対話音声を解析し、対話音声を加工してマスキング音を生成し、出力することが記載されている。

しかしながら、特許文献２に記載の手法では、音圧が高いマスキング音が四六時中流れることになり、待合室の人々の雑談や面談中の会話が聞き取り難くなるという問題が指摘されている。
また、特許文献３、４に記載の手法では、マスキング音が人間に不快感を与えるとう問題が指摘されている。また、録音する為のマイクロホン、高速信号処理装置などが必要となり、コストがかかるという問題が指摘されている。尚、不快なマスキング音を和らげるために、更にＢＧＭを合成するという手法も考えられるが、音圧が大きくなり煩わしくなるという別の問題が発生する。

そこで、本発明者は、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる秘匿化データ生成装置等を発明した（特許文献５参照）。また、本発明者は、人手を費やさずに、秘匿化データのどの再生箇所においてもマスキング効果を満遍なく働かせることができる秘匿化データ生成装置等を発明した（特許文献６参照）。
特許文献５及び特許文献６では、ＢＧＭ信号に対して音声に対するマスキング効果を強調させるためのフィルタ関数を設定するにあたり、代表的な音声信号の最大値スペクトルを使用するＢＧＭ音楽信号の平均値スペクトルで除算した値を基にしてフィルタ関数を設定する手法が提案されている。

特許第２５４４８９９号公報特開２０１０−０３１５０１号公報特許第４２４５０６０号公報特許第４３３６５５２号公報特願２０１０−１９２１３３号特願２０１１−０００９２９号

ところで、特許文献５及び特許文献６の手法では、ヒト音声信号成分が多く含まれる５ｋＨｚ〜１０ｋＨｚの周波数成分が強調されるようにフィルタ関数が設定されやすい。５ｋＨｚ〜１０ｋＨｚの周波数帯域は、ヒト聴覚系の感度特性が比較的低い領域ではあるが、このフィルタ関数を用いて音楽信号にフィルタ加工を施した音楽を流そうとすると、ヒト聴覚系の感度特性が高い４ｋＨｚ未満の周波数帯域を基準に再生音量を設定するため、それに伴って５ｋＨｚ〜１０ｋＨｚの周波数帯域の音量が顕著に大きくなり、音色が不自然に変化して煩くなる場合がある。
尚、ヒト聴覚系の感度特性を示す等ラウドネス曲線は、フレッチャー＆マンソンらによる計測データを基本にＩＳＯ２２６として規格化されたものである。ＩＳＯ２２６の規格は、１ｋＨｚ以下の低い周波数帯域がよりヒト聴覚系の感度特性に合うように、更なる改良が行われている。

本発明は、前述した問題点に鑑みてなされたもので、その目的とすることは、音声信号に対するマスキング効果を高めつつ、再生される音楽の音色を原音と同等に維持し、音量を絞って再生しても所定のマスキング効果を働かせることができる秘匿化データ生成装置等を提供することである。

前述した目的を達成するために第１の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成装置であって、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する周波数解析手段と、前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、前記音楽平均値スペクトルＶｍ（ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｊ）を算出し、更に、前記除算値スペクトルＤｉｖ（ｊ）の各値に対して、互いに対応する周波数ｊごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線Ｌ（ｊ）に基づく値を乗算することにより、フィルタ関数Ｆ（ｊ）を作成するフィルタ関数作成手段と、前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、前記フィルタ関数Ｆ（ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、を具備することを特徴とする秘匿化データ生成装置である。
第１の発明によって、音声信号に対するマスキング効果を高めつつ、再生される音楽の音色を原音と同等に維持し、音量を絞って再生しても所定のマスキング効果を働かせることができる。

第１の発明における前記フィルタ関数作成手段が用いる前記聴覚感度補正曲線Ｌ（ｊ）は、例えば、４０フォンの等ラウドネス曲線に基づいて定義される。
４０フォンは、通常の音声や音楽を聴取する際の平均的なラウドネスレベルであり、適切なフィルタ関数を作成することができる。

また、第１の発明における前記フィルタリング手段は、フレームｆごとに、前記フィルタ関数Ｆ（ｊ）が乗算された複素スペクトルに対して、所定の周波数の範囲の中で前記複素スペクトルの最大スカラー値を求め、更に、前記複素スペクトルの各要素に対して、当該要素のスカラー値が前記最大スカラー値を超えない範囲内において所定の１以上のスケール値を乗算させる補正を施した後、前記フーリエ逆変換を行うことが望ましい。
これによって、離散的なスペクトル特性の状態を維持したまま、低域部を白色雑音のように若干平坦に近づけることができ、ひいては、音楽の音色を維持したまま、更にマスキング効果を高めることができる。

また、第１の発明における前記フィルタ関数作成手段は、前記音声最大値スペクトルＶｖ（ｊｃ）（ｊｃは特定の周波数）を、周波数ｊｃよりも高域側の範囲内の最大値に置換することによって、置換音声最大値スペクトルを算出し、前記音楽平均値スペクトルＶｍ（ｊｃ）を、周波数ｊｃの前後の範囲内の平均値に置換することによって、置換音楽平均値スペクトルを算出し、前記置換音声最大値スペクトルを前記置換音楽平均値スペクトルによって除した値を、前記除算値スペクトルＤｉｖ（ｊ）とすることが望ましい。
マスキングは、高音側（周波数が高域側）に働きやすいという性質がある為、音声最大値スペクトルＶｖ（ｊ）を、周波数ｊよりも高域側の範囲内の最大値に置換すれば、音声スペクトルを周波数方向に低音側に非線形シフトする補正を行っていることになり、ひいては、マスキング効果を高めることができる。

また、第１の発明における前記フィルタ関数作成手段は、前記フィルタ関数Ｆ（ｊ）の各値に対して前記聴覚感度補正曲線Ｌ（ｊ）に基づく値を乗算した後、周波数ｊの前後の範囲内の平均値に置換することによって、前記フィルタ関数Ｆ（ｊ）を平滑化することが望ましい。
これによって、フィルタ関数が滑らかになり、ひいては、最終的に生成される秘匿化データが、人間にとって心地良い音楽データとなる。

また、第１の発明における前記周波数解析手段は、前記音楽平均値スペクトルＶｍ（ｆ,ｊ）として、前記音楽データの各フレームｆの前後Ｍフレームに渡って時間軸方向に平均化したスペクトルをフレームｆごとに算出し、前記フィルタ関数作成手段は、前記除算値スペクトルＤｉｖ（ｆ,ｊ）として、前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する前記音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値を算出し、更に、前記除算値スペクトルＤｉｖ（ｆ,ｊ）の各値に対して、互いに対応する周波数ｊごとに前記聴覚感度補正曲線Ｌ（ｊ）に基づく値を乗算することにより、前記フィルタ関数Ｆ（ｆ,ｊ）を作成することが望ましい。
これによって、人手を費やさずに、どの再生箇所においてもマスキング効果が満遍なく働く秘匿化データを生成することができる。

また、第１の発明は、複数の前記音楽データを記憶する音楽データ記憶手段と、前記音楽データ記憶手段によって記憶されている前記音楽データの中から単一の前記音楽データを選択する音楽データ選択手段と、を更に具備し、前記音楽データ選択手段によって選択された単一の前記音楽データに基づいて、前記秘匿化データを生成することが望ましい。
これによって、複数の音楽データに基づいて、複数の秘匿化データを生成することができる。

第２の発明は、第１の発明の秘匿化データ生成装置が生成する複数の前記秘匿化データを記憶する秘匿化データ記憶手段と、前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択手段と、前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生手段と、を具備することを特徴とする秘匿化装置である。
第２の発明によって、第１の発明の秘匿化データ生成装置を物理的に分離することができ、第１の発明の秘匿化データ生成装置を働かさなくても、あらかじめ作成された秘匿化データを随時再生することができる。

第２の発明における前記秘匿化データ再生手段は、前記秘匿化データを波面が平面波に近い音波として所定平面から均一に放射する機構をもつ平面型スピーカによって構成されていることが望ましい。
これによって、秘匿化対象位置に伝搬される過程で減衰する音波のエネルギー量が、対話音声に比べ記秘匿化データの方が小さくなり、相対的に秘匿化データのエネルギー量が対話音声に比べ大きくなるため、マスキング効果を高めることができる。

第３の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成方法であって、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する周波数解析ステップと、前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、前記音楽平均値スペクトルＶｍ（ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｊ）を算出し、更に、前記除算値スペクトルＤｉｖ（ｊ）の各値に対して、互いに対応する周波数ｊごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線Ｌ（ｊ）に基づく値を乗算することにより、フィルタ関数Ｆ（ｊ）を作成するフィルタ関数作成ステップと、前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、前記フィルタ関数Ｆ（ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、を含むことを特徴とする秘匿化データ生成方法である。
第３の発明によって、音声信号に対するマスキング効果を高めつつ、再生される音楽の音色を原音と同等に維持し、音量を絞って再生しても所定のマスキング効果を働かせることができる。

第４の発明は、第３の発明の秘匿化データ生成方法によって生成する複数の前記秘匿化データを記憶する秘匿化データ記憶ステップと、前記秘匿化データ記憶ステップによって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択ステップと、前記秘匿化データ選択ステップによって選択された単一の前記秘匿化データを再生する秘匿化データ再生ステップと、を含むことを特徴とする秘匿化方法である。
第４の発明によって、第２の発明の秘匿化データ生成方法を物理的に分離することができ、第２の発明の秘匿化データ生成方法を働かさなくても、あらかじめ作成された秘匿化データを随時再生することができる。

第５の発明は、コンピュータに、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する周波数解析ステップと、前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、前記音楽平均値スペクトルＶｍ（ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｊ）を算出し、更に、前記除算値スペクトルＤｉｖ（ｊ）の各値に対して、互いに対応する周波数ｊごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線Ｌ（ｊ）に基づく値を乗算することにより、フィルタ関数Ｆ（ｊ）を作成するフィルタ関数作成ステップと、前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、前記フィルタ関数Ｆ（ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、を実行させるためのコンピュータ読取可能なプログラムである。
第５の発明を汎用のコンピュータにインストールすることによって、第１の発明の秘匿化データ生成装置または第３の発明の秘匿化データ生成方法を汎用コンピュータ上で実現することができる。

本発明によって、フィルタ加工に起因してＢＧＭ音楽中のヒトの聴覚感度が低い周波数帯域の成分が強調されるため再生音量を高めに設定することを抑止し、音色が不自然に変化することを避けることができ、従来よりもＢＧＭ音楽の再生音量を抑えながら、従来と同等以上のマスキング効果を働かせることができる。すなわち、従来よりも再生音量が低く、かつ快適な音響環境にて秘匿化効果を向上させることができる。

秘匿化装置の概要図秘匿化データ生成装置のハードウエア構成図等ラウドネス曲線の一例を示す図聴覚感度補正曲線の一例を示す図秘匿化処理の流れを示すフローチャート秘匿化データ生成処理の流れを示す図周波数解析処理を説明する図（１）周波数解析処理を説明する図（２）フィルタ関数作成処理を説明する図（１）フィルタ関数作成処理を説明する図（２）フィルタ関数作成処理を説明する図（３）フィルタリング処理を説明する図（１）フィルタリング処理を説明する図（２）フィルタリング処理を説明する図（３）秘匿化装置の第１の設置例秘匿化装置の第２の設置例実施例及び比較例の音声最大値スペクトルを示す図実施例及び比較例の音楽平均値スペクトルを示す図比較例のフィルタ関数を示す図比較例のフィルタリング処理後の音楽信号を示す図実施例の聴覚感度補正曲線を示す図実施例のフィルタ関数を示す図実施例のフィルタリング処理後（圧縮なし）の音楽信号を示す図実施例のフィルタリング処理後（圧縮あり）の音楽信号を示す図

以下図面に基づいて、本発明の実施形態を詳細に説明する。
図１は、秘匿化装置１の概要図である。図１に示すように、秘匿化装置１は、少なくとも、秘匿化データ生成装置２及び音楽再生装置３から構成される。
秘匿化データ生成装置２は、例えば、コンピュータ等であり、対話音声を秘匿化するための音楽データである秘匿化データ７を生成する。秘匿化データ生成装置２の記憶部には、少なくとも音声データ４、音楽データ５、聴覚感度補正曲線６が記憶される。これらのデータについては後述する。
音楽再生装置３は、音楽プレーヤ及びスピーカから構成され、秘匿化データ７を再生する。音楽再生装置３の記憶部には、少なくとも秘匿化データ生成装置２によって生成される秘匿化データ７が記憶される。

秘匿化装置１は、用途に応じて様々な構成を採ることが可能である。秘匿化装置１を構成する秘匿化データ生成装置２及び音楽再生装置３は、図１に示すように異なる筐体としても良いし、１つの筐体としても良い。
また、秘匿化データ生成装置２及び音楽再生装置３は、図１に示すように有線によって接続されても良いし、無線によって接続されても良いし、ネットワークを介して接続されても良いし、接続されていなくても良い。
秘匿化データ生成装置２及び音楽再生装置３が接続されていない場合、秘匿化データ生成装置２は、秘匿化データ７を記憶媒体（ＣＤ、ＭＤ、ＵＳＢメモリ、ＳＤカードなどコンピュータ及び音楽プレーヤが読取可能な記憶媒体）に出力し、音楽再生装置３は、記憶媒体から秘匿化データ７を入力する。

少なくとも音楽再生装置３は、対話音声の秘匿化を所望する音響空間に設置される。このような音響空間としては、例えば、調剤薬局などの受付カウンターに隣接する待合室などが考えられる。そして、音楽再生装置３は、このような待合室において秘匿化データ７を再生する。
ここで、本発明の実施の形態に係る秘匿化データ生成装置２が生成する秘匿化データ７は、受付カウンターと待合室の間に間仕切りが全く無くても、通常の音量によって、待合室にいる人が受付カウンターの対話音声の内容を聞き取ることができない程度に、秘匿化することが可能である。
音楽再生装置３が設置される音響空間としては、その他に、金融機関、保険会社、携帯電話店などのカウンターに隣接する待機スペース、法律事務所などの面談室に隣接する通路、企業などの応接室、飲食店などの個室などが挙げられる。

図２は、秘匿化データ生成装置２のハードウエア構成図である。尚、図２のハードウエア構成は一例であり、用途、目的に応じて様々な構成を採ることが可能である。
秘匿化データ生成装置２は、制御部２１、記憶部２２、メディア入出力部２３、通信制御部２４、入力部２５、表示部２６、周辺機器Ｉ／Ｆ部２７等が、バス２８を介して接続される。

制御部２１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成される。
ＣＰＵは、記憶部２２、ＲＯＭ、記録媒体等に格納されるプログラムをＲＡＭ上のワークメモリ領域に呼び出して実行し、バス２８を介して接続された各装置を駆動制御し、秘匿化データ生成装置２が行う後述する処理を実現する。
ＲＯＭは、不揮発性メモリであり、秘匿化データ生成装置２のブートプログラムやＢＩＯＳ等のプログラム、データ等を恒久的に保持している。
ＲＡＭは、揮発性メモリであり、記憶部２２、ＲＯＭ、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部１１が各種処理を行う為に使用するワークエリアを備える。

記憶部２２は、ＨＤＤ（ハードディスクドライブ）であり、制御部２１が実行するプログラム、プログラム実行に必要なデータ、ＯＳ（オペレーティングシステム）等が格納される。プログラムに関しては、ＯＳ（オペレーティングシステム）に相当する制御プログラムや、後述する処理をコンピュータに実行させるためのアプリケーションプログラムが格納されている。
これらの各プログラムコードは、制御部２１により必要に応じて読み出されてＲＡＭに移され、ＣＰＵに読み出されて各種の手段として実行される。

メディア入出力部２３（ドライブ装置）は、データの入出力を行い、例えば、ＣＤドライブ（−ＲＯＭ、−Ｒ、−ＲＷ等）、ＤＶＤドライブ（−ＲＯＭ、−Ｒ、−ＲＷ等）、ＭＤドライブ等のメディア入出力装置を有する。
通信制御部２４は、通信制御装置、通信ポート等を有し、秘匿化データ生成装置２とネットワーク間の通信を媒介する通信インタフェースであり、ネットワークを介して、他の装置間との通信制御を行う。ネットワークは、有線、無線を問わない。

入力部２５は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。
入力部２５を介して、秘匿化データ生成装置２に対して、操作指示、動作指示、データ入力等を行うことができる。
表示部２６は、ＣＲＴモニタ、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携して秘匿化データ生成装置２のビデオ機能を実現するための論理回路等（ビデオアダプタ等）を有する。

周辺機器Ｉ／Ｆ（インタフェース）部２７は、秘匿化データ生成装置２に周辺機器を接続させるためのポートであり、秘匿化データ生成装置２は周辺機器Ｉ／Ｆ部２７を介して周辺機器とのデータの送受信を行う。周辺機器Ｉ／Ｆ部２７は、ＵＳＢやＳＤカードリーダ等で構成されている。
バス２８は、各装置間の制御信号、データ信号等の授受を媒介する経路である。

図３は、等ラウドネス曲線の一例を示す図である。等ラウドネス曲線は、ＩＳＯ２２６によって規格化されている。等ラウドネス曲線は、ラウドネス（音の聴覚的な強さ）のレベルごとに、周波数の変化に基づいてヒトが感覚的に同じラウドネルレベルに聴取される物理的に計測される音圧レベルの変化を示す曲線である。ラウドネスレベルの単位は、ｐｈｏｎ（フォン、ホン、ホーン）である。音圧レベルの単位は、ｄＢ（デシベル）である。
図３では、横軸が周波数［Ｈｚ］、縦軸が音圧レベル［ｄＢ］であり、ラウドネスレベルごとに等ラウドネス曲線が定義される。図３では、０（最小可聴音場）、１０、２０、３０、・・・、１３０［ｐｈｏｎ］の等ラウドネス曲線が図示されている。

図３を見ると分かるように、ラウドネスレベルが大きくなるにつれて、等ラウドネス曲線ごとの最大音圧レベルと最小音圧レベルとの差は小さくなる。すなわち、０［ｐｈｏｎ］の等ラウドネス曲線における最大音圧レベルと最小音圧レベルとの差が一番大きく、１３０［ｐｈｏｎ］の等ラウドネス曲線における最大音圧レベルと最小音圧レベルとの差が一番小さい。
本発明の実施の形態では、通常の音声や音楽を聴取する際の平均的なラウドネスレベルである４０［ｐｈｏｎ］の等ラウドネス曲線を用いて、後述する「聴覚感度補正曲線」を定義する。尚、秘匿化データ７が再生される音響空間の環境がある程度予測できる場合、環境に合わせて等ラウドネス曲線を選択するようにしても良い。

図４は、聴覚感度補正曲線の一例を示す図である。聴覚感度補正曲線は、秘匿化データ生成装置２によって利用される。聴覚感度補正曲線は、後述する「フィルタ関数」を補正する際に用いられる。
図４では、各周波数に対する上段が、等ラウドネス曲線の音圧レベルを示しており、各周波数に対する下段が、５００Ｈｚを基準（０ｄＢ）とした時の聴覚感度補正曲線の音圧レベルを示している。例えば、周波数が２０[Ｈｚ]に対して、等ラウドネス曲線の音圧レベルが９０．０［ｄＢ］、聴覚感度補正曲線の音圧レベルが−５３．０［ｄＢ］である。また、例えば、周波数が３０[Ｈｚ]に対して、等ラウドネス曲線の音圧レベルが７７．０［ｄＢ］、聴覚感度補正曲線の音圧レベルが−４０．０［ｄＢ］である。
図４に示す例では、“聴覚感度補正曲線の音圧レベル（下段の値）＝等ラウドネス曲線の音圧レベルの５００Ｈｚにおける極小値（＝３７．０）−等ラウドネス曲線の音圧レベル（上段の値）”によって、聴覚感度補正曲線の音圧レベルを求めている。
聴覚感度補正曲線の算出処理は、この例に限られず、例えば、図３の等ラウドネス曲線を、横軸に平行な所定の直線に従って折り返すことによって、聴覚感度補正曲線を求めても良い。また、聴覚感度補正曲線の基準とする周波数は、等ラウドネス曲線上の極小値になる５００Ｈｚに設定する必要もない。

ここで、聴覚感度補正曲線の意義について説明する。
ヒト聴覚系の感度は周波数に依存して変化し、４ｋＨｚ近辺をピークに３００Ｈｚ以下の低音または５ｋＨｚ以上の高音になるほど感度が低下する特性をもつ。ところが、音声信号には音楽信号には比較的少ない５ｋＨｚ〜１０ｋＨｚの周波数帯の成分が多く含まれるため、フィルタ関数はこれらの周波数帯の成分を強調するように働く。この強調される周波数帯域はヒトの聴覚感度が比較的低い帯域であるため、再生時には聴覚感度が高い４ｋＨｚ以下の周波数帯域を基準に音量を設定するようになる。そうすると、これに連動して５ｋＨｚ〜１０ｋＨｚの周波数帯の音量が不自然に大きくなり、全体的に騒がしくなる。そこで、後述するように、聴感特性曲線を重畳してフィルタ関数を生成することによって、５ｋＨｚ〜１０ｋＨｚの周波数帯の強調度合いが抑えられて不自然な音色になることを回避できる。また、ヒトの聴覚感度が高く音声を識別するためのフォルマント成分に富む３００Ｈｚ〜３．４ｋＨｚの周波数帯が強調されることになり、再生音量をあまり上げなくてもマスキングが有効に働きやすくなる。

図５は、秘匿化処理の流れを示すフローチャートである。
図５に示すように、秘匿化データ生成装置２の制御部２１は、音声データ４及び音楽データ５を記憶部２２に記憶する（Ｓ１０１）。音楽データ５は、複数記憶するようにしても良い。
音声データ４は、秘匿化対象の音響空間における対話音声ではなく、固定のサンプルデータとする。すなわち、本発明の実施の形態における秘匿化データ生成装置２は、リアルタイムにサンプリングされた秘匿化対象の対話音声は使用しない。音声データ４は、予め録音された種々の男声、女声が混在した対話音声である。
音楽データ５は任意である。例えば、聴取者にとって意味のあるメロディ・リズム・和声進行が含まれている必要は必ずしもなく、川のせせらぎ音などの自然音でもかまわない。秘匿化対象の対話音声に類似した周波数成分を多く含む音楽データであれば、マスキング効果が働きやすくなるので、マスキング効果を高めるという意味では、声楽データが含まれていることが望ましい。但し、声楽データが含まれると騒がしくなるため、器楽データのみであり、楽器編成が少ない室内楽曲などが現実的である。秘匿化データ生成装置２は、音楽データ５ごとに秘匿化データ７を生成する。

次に、秘匿化データ生成装置２の制御部２１は、単一の音楽データ５を選択する（Ｓ１０２）。音楽データ５の選択は、入力部２５を介してユーザが指示するようにしても良い。
次に、秘匿化データ生成装置２の制御部２１は、Ｓ１０２において選択された単一の音楽データ５に基づいて、秘匿化データ７の生成処理を行う（Ｓ１０３）。秘匿化データ７の生成処理の詳細は後述する。
Ｓ１０２及びＳ１０３の処理を繰り返し、複数の秘匿化データ７を生成するようにしても良い。

次に、音楽再生装置３は、Ｓ１０３にて生成された秘匿化データ７を記憶する（Ｓ１０４）。秘匿化データ７は、複数記憶するようにしても良い。
次に、音楽再生装置３は、単一の秘匿化データ７を選択する（Ｓ１０５）。秘匿化データ７の選択は、あらかじめ定義されたプレイリスト（再生プログラム）に基づいて自動的に行われるようにする方法が一般的であるが、ユーザが指示するようにしても良い。
次に、音楽再生装置３は、Ｓ１０５において選択された単一の秘匿化データ７を再生する（Ｓ１０６）。再生音量は、環境の変化に応じて、ユーザの指示により適宜変更される。

以上により、秘匿化装置１は、音響空間Ａにおける対話音声が、所定の距離だけ離れている音響空間Ｂにいる人に聴取されないように秘匿化することができる。
以下では、秘匿化データ７の生成処理の詳細について説明する。

図６は、秘匿化データ生成処理の流れを示す図である。図６に示すように、秘匿化データ生成処理は、フレーム抽出処理３１、周波数解析処理３２、フィルタ関数作成処理３３、及びフィルタリング処理３４を含む。
ここでは、各処理の概要について説明し、詳細は後述する。

フレーム抽出処理３１は、音声データ４及び音楽データ５を入力し、各々に対して所定の区間単位のフレームｆに分割し、音声フレーム群１０及び音楽フレーム群１１を生成する。

周波数解析処理３２は、音声フレーム群１０及び音楽フレーム群１１を入力し、音声最大値スペクトルデータ１２及び音楽平均値スペクトルデータ１３を出力する。周波数解析処理３２は、秘匿化データ生成装置２の制御部２１が、音声フレーム群１０及び音楽フレーム群１１の各クレームに対して周波数解析を行い、音声フレームの時間軸方向に最大のスペクトルである単一の音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、音楽フレームの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する処理である。
尚、Ｖｖ（ｊ）の添え字「ｖ」は、ｖｏｉｃｅの頭文字である。また、Ｖｍ（ｆ、ｊ）の添え字「ｍ」は、ｍｕｓｉｃの頭文字である。

また、周波数解析処理３２は、フレームｆごとに音楽平均値スペクトルデータ１３を出力しても良い。すなわち、秘匿化データ生成装置２の制御部２１は、音楽平均値スペクトルＶｍ（ｆ,ｊ）として、音楽フレームの前後Ｍフレーム（Ｍ個）に渡って時間軸方向に平均化したスペクトルを算出するようにしても良い。

ここで、Ｍは、例えば、「Ｍ（個）×フレームの長さ（秒）」が数秒程度であることが望ましい。これは、「Ｍ（個）×フレームの長さ（秒）」が短すぎると、音楽が不自然に聞こえてしまい、「Ｍ（個）×フレームの長さ（秒）」が長すぎると、マスキング効果、即ち音声の秘匿化が適切に働かない箇所が目立つようになるからである。

音声データ４は、スペクトルの時系列変動が大きく、無音部も含まれるため、平均値では適切な評価ができない。そこで、本発明の実施の形態では、音声最大値スペクトルＶｖ（ｊ）を１つだけ算出する。
音楽データ５は、フレーム単位の各瞬時スペクトル（位相成分は無視したエネルギー量）に対して、時間軸方向に瞬時スペクトルを平均化した音楽平均値スペクトルＶｍ（ｊ）に置換される。又は、音楽データ５は、フレームｆごとに、前後所定のフレーム数に対応する瞬時スペクトルを平均化した音楽平均値スペクトルＶｍ（ｆ,ｊ）に置換される。

フィルタ関数作成処理３３は、音声最大値スペクトルデータ１２及び音楽平均値スペクトルデータ１３を入力し、フレームｆごとに、フィルタ関数データ１４を出力する。フィルタ関数作成処理３３は、秘匿化データ生成装置２の制御部２１が、音声最大値スペクトルＶｖ（ｊ）に基づく値を、音楽平均値スペクトルＶｍ（ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｊ）を算出し、更に、除算値スペクトルＤｉｖ（ｊ）の各値に対して、互いに対応する周波数ｊごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線Ｌ（ｊ）に基づく値を乗算することにより、フィルタ関数Ｆ（ｊ）を作成する処理である。ここで、聴覚感度補正曲線Ｌ（ｊ）の単位は、図４記載のｄＢではなく無次元に換算した値で、具体的には図４記載のｄＢ値をｄとすれば、１０^ｄ／２０で与えられる。

また、フィルタ関数作成処理３３は、フレームｆごとにフィルタ関数データ１４を出力しても良い。すなわち、秘匿化データ生成装置２の制御部２１は、除算値スペクトルＤｉｖ（ｆ,ｊ）として、音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値を算出し、更に、除算値スペクトルＤｉｖ（ｆ,ｊ）の各値に対して、互いに対応する周波数ｊごとに聴覚感度補正曲線Ｌ（ｊ）に基づく値を乗算することにより、フィルタ関数Ｆ（ｆ,ｊ）を作成するようにしても良い。

フィルタリング処理３４は、音楽データ５及びフィルタ関数データ１５を入力し、フレームｆごとに、秘匿化データ７を出力する。フィルタリング処理３４は、秘匿化データ生成装置２の制御部２１が、音楽データ５を所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、フィルタ関数Ｆ（ｊ）を乗じ、フーリエ逆変換することによって、秘匿化データ７を生成する処理である。

以下では、周波数解析処理３２及びフィルタ関数作成処理３３が、それぞれ、フレームｆごとに、音楽平均値スペクトルＶｍ（ｆ,ｊ）及びフィルタ関数Ｆ（ｆ,ｊ）を作成する場合を例にして説明する。尚、この例を説明することによって、周波数解析処理３２及びフィルタ関数作成処理３３が、フレームｆごとではなく音楽平均値スペクトルＶｍ（ｊ）及びフィルタ関数Ｆ（ｊ）を作成する場合も説明されることは、言うまでもない。

図７、図８は、周波数解析処理を説明する図である。図７、図８に示すように、周波数解析処理３２は、（狭義の）周波数解析３２ａ、瞬時スペクトル算出処理４１、平均スペクトル算出処理４２を含む。

最初に、音声データ４に対する周波数解析処理について説明する。
例えば、サンプリング周波数Ｆｓを「４４１００Ｈｚ」、サンプル数Ｎを「４０９６」とする。サンプリング周波数Ｆｓ及びサンプル数Ｎによって、音声データ４に含まれるフレーム数Ｆｖが定まる。
フレーム抽出処理３１では、秘匿化データ生成装置２の制御部２１が、サンプリング周波数Ｆｓのモノラル音声信号（ステレオの場合はＬＲ（左右）の合算値とする。）に対して、各々Ｎ／２サンプル間隔ごとに（すなわち、Ｎ／２サンプル分ずつ重複する。）、Ｎ個ずつ、各々Ｆｖフレーム抽出する。

次に、周波数解析処理３２ａでは、制御部２１は、抽出したｆ番目のフレームデータＸｖ（ｆ、ｉ）（ｆ＝０、・・・、Ｆｖ−１；ｉ＝０、・・・、Ｎ−１）に対して、ハニング窓関数Ｈ（ｉ）＝０．５−０．５ｃｏｓ（２πｉ／Ｎ）を用いてフーリエ変換を行う。
次に、制御部２１は、変換データの実部Ａｖ（ｆ、ｊ）（ｆ＝０、・・・、Ｆｖ−１；ｊ＝０、・・・、Ｎ−１）、虚部Ｂｖ（ｆ、ｊ）（ｆ＝０、・・・、Ｆｖ−１；ｊ＝０、・・・、Ｎ−１）及び強度値の時系列の最大値スペクトルＶｖ（ｊ）を各々、次式のように算出する。

図７には、音声フレームデータＸｖ（ｆ、ｉ）のフレーム１（ｆ＝０に対応）〜フレームＦ（ｆ＝Ｆｖ−１に対応）に対して、周波数解析３２ａが行われ、音声スペクトル１〜音声スペクトルＦが算出され、音声最大値スペクトルＶｖ（ｊ）が算出されることが図示されている。

次に、音楽データ５に対する周波数解析処理について説明する。
音声データ４と同様、サンプリング周波数Ｆｓを「４４１００Ｈｚ」、サンプル数Ｎを「４０９６」とする。サンプリング周波数Ｆｓ及びサンプル数Ｎによって、音楽データ５に含まれるフレーム数Ｆｍが定まる。
フレーム抽出処理３１では、秘匿化データ生成装置２の制御部２１が、サンプリング周波数Ｆｓのモノラル音楽信号（ステレオの場合はＬＲ（左右）の合算値とする。）に対して、各々Ｎ／２サンプル間隔ごとに（すなわち、Ｎ／２サンプル分ずつ重複する。）、Ｎ個ずつ、各々Ｆｍフレーム抽出する。

次に、周波数解析処理３２ａでは、制御部２１は、抽出したｆ番目のフレームデータＸｍ（ｆ、ｉ）（ｆ＝０、・・・、Ｆｍ−１；ｉ＝０、・・・、Ｎ−１）に対して、ハニング窓関数Ｈ（ｉ）＝０．５−０．５ｃｏｓ（２πｉ／Ｎ）を用いてフーリエ変換を行う。
次に、制御部２１は、瞬時スペクトル算出処理４１として、フレームごとに、位相成分は無視したエネルギー量である瞬時スペクトルを算出する。また、制御部２１は、平均スペクトル算出処理４２として、前後Ｍフレーム（Ｍ個）の瞬時スペクトルの平均値である平均スペクトルを算出する。

具体的には、制御部２１は、変換データの実部Ａｍ（ｆ、ｊ）（ｆ＝０、・・・、Ｆｍ−１；ｊ＝０、・・・、Ｎ−１）、虚部Ｂｍ（ｆ、ｊ）（ｆ＝０、・・・、Ｆｍ−１；ｊ＝０、・・・、Ｎ−１）、及び、対象フレームを中点として前後Ｍ／２フレーム（Ｍ／２個）ずつ、合計Ｍフレーム（Ｍ個）（Ｍ＜Ｆｍ）の平均値スペクトルＶｍ（ｆ、ｊ）（ｆ＝０、・・・、Ｆｍ−１；ｊ＝０、・・・、Ｎ／２）を各々、次式のように算出する。
但し、音楽データ５の先頭部、すなわち、ｆ＜Ｍ／２の場合、前後Ｍ／２フレーム（Ｍ／２個）ずつの平均を取ることができないことから、Ｖｍ（ｆ、ｊ）＝Ｖｍ（Ｍ／２、ｊ）とする。同様に、音楽データ５の後尾部、すなわち、ｆ＞Ｆｍ−Ｍ／２の場合、前後Ｍ／２フレーム（Ｍ／２個）ずつの平均を取ることができないことから、Ｖｍ（ｆ、ｊ）＝Ｖｍ（Ｆｍ−Ｍ／２−１、ｊ）とする。

図７には、一例として、音楽データ５のフレームｆとフレームｆ＋１に対する周波数解析処理が示されている。
図７には、音楽フレームデータＸｍ（ｆ、ｉ）のフレーム１〜フレームＭ＋１に対して、周波数解析３２ａが行われ、フレーム１〜フレームＭまでの時系列平均が算出され、フレームｆに対する音楽平均値スペクトルＶｍ（ｆ、ｊ）が算出されることが図示されている。同様に、図７には、フレーム２〜フレームＭ＋１までの時系列平均が算出され、フレームｆ＋１に対する音楽平均値スペクトルＶｍ（ｆ＋１、ｊ）が算出されることが図示されている。

また、図８には、図７の補足的な説明として、音楽データ５を入力とし、瞬時スペクトル算出処理４１によって、フレームごとに瞬時スペクトルが算出されることが図示されている。また、平均スペクトル算出処理４２によって、処理対象のフレームに対して、前後Ｍフレーム（Ｍ個）の瞬時スペクトルの平均値が算出され、平均値スペクトルに置換され、音楽平均値スペクトルデータ１３が出力されることが図示されている。

図９〜図１１は、フィルタ関数作成処理を説明する図である。フィルタ関数作成処理３３は、図９に示す臨界帯域幅補正処理４３、図１０に示す除算処理４４、並びに、図１１に示す聴覚感度補正処理４５及び平滑化処理４６を含む。

まず、図９を参照して臨界帯域幅補正処理４３について説明する。
臨界帯域幅補正処理４３は、秘匿化データ生成装置２の制御部２１が、音声最大値スペクトルＶｖ（ｊ）を、周波数ｊごとに所定の範囲内の最大値に置換することによって、単一の置換音声最大値スペクトルＶｖ’（ｊ）を作成する処理である。また、臨界帯域幅補正処理４３は、フレームｆごとに、音楽平均値スペクトルＶｍ（ｆ、ｊ）を、周波数ｊごとに所定の範囲内の平均値に置換することによって、置換音楽平均値スペクトルＶｍ’（ｆ、ｊ）を作成する処理である。
図９には、一例として、フレームｆとフレームｆ＋１に対する臨界帯域幅補正処理が示されている。

臨界帯域幅とは、ある周波数ｊの周波数成分Ｖｖ（ｊ）またはＶｍ（ｆ、ｊ）を中心にマスキングが及ぶ周波数の範囲（臨界帯域幅、Ｂａｒｋと呼ばれる。）である。臨界帯域幅の近似式としては、次式に示すＥ．Ｚｗｉｃｋｅｒの式が知られている。尚、一般に、周波数が高くなると、臨界帯域幅は広くなることが分かっている。

式（７）におけるｆｒの単位も「Ｈｚ」である。ｆｒとＢｚ（ｆｒ）を本実施の形態におけるフーリエ変換のポイント数の次元に変換すると、次式となる。

臨界帯域幅補正処理４３では、秘匿化データ生成装置２の制御部２１は、音声信号スペクトルに対して、周波数ｊごとに周波数成分Ｖｖ（ｊ）をｊｃ＝ｊ−（１−α）×Ｂｚ（ｊ）からｊｃ＝ｊ＋α×Ｂｚ（ｊ）の範囲の最大値に置換する。即ち、制御部２１は、ｊ＝０、・・・、Ｎ／２に対して、置換後のスペクトル（置換音声最大値スペクトル）Ｖｖ’（ｊ）を次式のように算出する。

αは０から１までの実数であり、通常はα＝１．０とする。式（９）によって、音声スペクトルを周波数方向に低音側に非線形シフトする補正を行っていることになる。
マスキングは、高音側（周波数が高域側）に働きやすいという性質がある為、音声最大値スペクトルＶｖ（ｊ）を、周波数ｊよりも高域側の範囲内の最大値に置換すれば、音声スペクトルを周波数方向に低音側に非線形シフトする補正を行っていることになり、ひいては、マスキング効果を高めることができる。

一方、音楽信号スペクトルに対しては、制御部２１は、フレームｆごとに処理を行い、周波数ｊごとに周波数成分Ｖｍ（ｆ、ｊ）をｊｃ＝ｊ−０．５×Ｂｚ（ｊ）からｊｃ＝ｊ＋０．５×Ｂｚ（ｊ）の範囲の平均値に置換する。即ち、制御部２１は、ｊ＝０、・・・、Ｎ／２に対して、置換後のスペクトル（置換音楽平均値スペクトル）Ｖｍ’（ｆ、ｊ）を次式のように算出する。

式（１０）によって、音楽スペクトルを周波数方向に平滑化をかけていることになる。

図９では、Ｗ（ｊ）が、置換の際の計算範囲を示している。音声最大値スペクトルＶｖ（ｊ）に対して、単一の置換音声最大値スペクトルＶｖ’（ｊ）が算出されることが図示されている。また、音楽平均値スペクトルＶｍ（ｆ、ｊ）に対しては、置換音楽平均値スペクトルＶｍ’（ｆ、ｊ）が算出され、音楽平均値スペクトルＶｍ（ｆ＋１、ｊ）に対しては、置換音楽平均値スペクトルＶｍ’（ｆ＋１、ｊ）が算出されることが図示されている。

次に、図１０を参照して、除算処理４４について説明する。
除算処理４４は、秘匿化データ生成装置２の制御部２１が、フレームｆごとに、音声最大値スペクトルＶｖ（ｊ）に基づく値を音楽平均値スペクトルＶｍ（ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値を除算値スペクトルＤｉｖ（ｆ、ｊ）として算出する処理である。特に、制御部２１は、フレームｆごとに、置換音声最大値スペクトルＶｖ’（ｊ）を置換音楽平均値スペクトルＶｍ’（ｆ、ｊ）によって除した値を除算値スペクトルＤｉｖ（ｆ、ｊ）とすることが望ましい。
図１０には、一例として、フレームｆとフレームｆ＋１に対する除算処理が示されている。

次に、図１１を参照して、聴覚感度補正処理４５及び平滑化処理４６について説明する。
聴覚感度補正処理４５は、除算値スペクトルＤｉｖ（ｆ,ｊ）の各値に対して、互いに対応する周波数ｊごとに聴覚感度補正曲線Ｌ（ｊ）に基づく値を乗算することにより、補正除算値スペクトルＤｉｖ’（ｆ、ｊ）を作成する処理である。
図１１には、一例として、フレームｆとフレームｆ＋１に対する聴覚感度補正処理が示されている。

具体的には、制御部２１は、周波数（ｊ＝０，．．，Ｎ／２）ごとに除算値スペクトルＤｉｖ（ｆ,ｊ）の各値に対して、例えば、４０ｐｈｏｎの等ラウドネス曲線に基づいて定義される聴覚感度補正曲線Ｌ（ｊ）に基づく値を乗算する。
例えば、制御部２１は、図４の下段に示す値を変数ｄＢに代入し、倍率値として１０^{ｄＢ／２０}を算出し、この倍率値を乗算する。

聴覚感度補正曲線Ｌ（ｊ）は、図４に示す例のように、“聴覚感度補正曲線の音圧レベル＝等ラウドネス曲線の音圧レベルの５００Ｈｚ極小値−等ラウドネス曲線の音圧レベル”によって求めても良い。
また、聴覚感度補正曲線Ｌ（ｊ）は、等ラウドネス曲線をマイナス側に適宜オフセットを加えて、符号を反転させるようにしても良い。オフセットを加える理由は、単に符号を反転すると、波形振幅が増幅されてしまうからである。
尚、制御部２１は、聴覚感度補正曲線Ｌ（ｊ）を複数回乗算しても良い。

人間の聴覚器官内では、音声や音楽に対して、聴覚感度補正処理４５と同様の処理が行われると考えられる。従って、制御部２１が聴覚感度補正曲線Ｌ（ｊ）を１回乗算することによって生成した秘匿化データ７は、これを聴取する人間の聴覚器官内において聴覚感度補正曲線Ｌ（ｊ）が１回乗算されると考えられる。すなわち、合計すると、秘匿化データ７は、聴覚感度補正曲線Ｌ（ｊ）が２回乗算されて人間に聴取されると考えられる。一方、秘匿化対象の対話音声も聴覚器官内において聴覚感度補正曲線Ｌ（ｊ）が１回乗算されると考えられるため、秘匿化データ７は１回分の余分な乗算により対話音声に対して優位に働くことになる。

また、平滑化処理４６は、秘匿化データ生成装置２の制御部２１が、補正除算値スペクトルＤｉｖ’（ｆ、ｊ）を、周波数ｊの前後の範囲内の平均値に置換することによって、補正除算値スペクトルＤｉｖ’（ｆ、ｊ）を平滑化する処理である。
図１１には、一例として、フレームｆとフレームｆ＋１に対する平滑化処理が示されている。

具体的には、制御部２１は、周波数（ｊ＝０、・・・、Ｎ／２）ごとに、補正除算値スペクトルＤｉｖ’（ｆ、ｊ）に対して、所定のタップ数Ｔ（＜Ｎ／２）によって、次式のように、平滑フィルタをかけた結果をＦ（ｆ、ｊ）とする。

βは、音圧を調整するための比例定数（実数値）である。音声信号の音圧と音楽信号の音圧を同程度とする場合、β＝１．０とする。
Ｆ（ｆ、ｊ）の上限値と下限値は予め設定しておく。例えば、中央値を１とすると、上限値を１０倍の「１０」、下限値を１／１０の「０．１」とする。除算結果が上限値を上回る場合、又は、下限値を下回る場合、制御部２１は、それぞれ、Ｆ（ｆ、ｊ）に上限値又は下限値を設定する。

図１１に示すように、補正除算値スペクトルＤｉｖ’（ｆ、ｊ）は、極値（極大値及び極小値）を数多く持つ関数となっている。特に、ところどころ０で割り算する箇所が発生してしまい、その箇所では上限値をもつ極値になり不連続点になる。補正除算値スペクトルＤｉｖ’（ｆ、ｊ）をそのままフィルタ関数とすると、人間にとって聞き苦しい秘匿化データ７が生成されてしまう。そこで、本発明の実施の形態では、平滑化処理４６を行っている。
図１１に示すように、平滑化処理４６を行うことで、フィルタ関数Ｆ（ｆ、ｊ）は、極値が少なく、滑らかな関数となっている。

尚、平滑化処理４６の後に聴覚感度補正処理４５を行うよりも、聴覚感度補正処理４５の後に平滑化処理４６を行う方が、人間にとってより聞き易い秘匿化データ７を生成することができる。

図１２〜図１４は、フィルタリング処理を説明する図である。フィルタリング処理３４は、図１２に示すフーリエ変換処理４７及びフィルタ関数乗算処理４８、並びに、図１３に示す周波数次元圧縮処理４９及びフーリエ逆変換処理５０を含む。
前述の周波数解析処理３２及びフィルタ関数作成処理３３では、実数値に対して計算を行っているが、フィルタリング処理３４では、複素数値をもつ瞬時スペクトルに対して計算を行う。

フーリエ変換処理４７は、秘匿化データ生成装置２の制御部２１が、音楽フレームデータＸｍｌ（ｆ、ｉ）及びＸｍｒ（ｆ、ｉ）（ｆ＝０、・・・、Ｆｍ−１；ｉ＝０、・・・、Ｎ−１）をフーリエ変換し、ソース複素スペクトルを算出する処理である。
図１２には、一例として、フレームｆとフレームｆ＋１に対するフーリエ変換処理が示されている。

フーリエ変換処理４７では、制御部２１は、サンプリング周波数Ｆｓのステレオ音声信号（モノラル信号の場合は一方を０とする。）に対して、各々Ｎ／２サンプル間隔ごとに（すなわち、Ｎ／２サンプル分ずつ重複する。）、Ｎ個ずつ、各々Ｆｍフレーム抽出したｆ番目の音楽フレームデータＸｍｌ（ｆ、ｉ）及びＸｍｒ（ｆ、ｉ）に対して、ハニング窓関数Ｈ（ｉ）＝０．５−０．５ｃｏｓ（２πｉ／Ｎ）を用いてフーリエ変換を行い、以下のように、変換データの実部Ａｍｌ（ｆ、ｊ）及びＡｍｒ（ｆ、ｊ）、並びに、虚部Ｂｍｌ（ｆ、ｊ）及びＢｍｒ（ｆ、ｊ）（ｆ＝０、・・・、Ｆｍ）−１；ｊ＝０、・・・、Ｎ−１）を算出する。

また、フィルタ関数乗算処理４８は、制御部２１が、ソース複素スペクトルにフィルタ関数Ｆ（ｆ、ｊ）を乗じ、改変複素スペクトルを算出する処理である。
図１２には、一例として、フレームｆとフレームｆ＋１に対するフィルタ関数乗算処理が示されている。

フィルタ関数乗算処理４８では、制御部２１は、Ｆｍ個のフィルタ関数Ｆ（ｆ、ｊ）を用いて、フレームｆごとに所定の周波数区間［ｊ１、ｊ２］の全ての周波数成分に乗算する。即ち、制御部２１は、各フレームｆ＝０、・・・、Ｆｍ−１、及び、各周波数ｊ＝ｊ１、・・・、ｊ２において、次式のように変換を行う。

次に、図１３を参照して、周波数次元圧縮処理４９及びフーリエ逆変換処理５０について説明する。
周波数次元圧縮処理４９は、フレームｆごとに、フィルタ関数Ｆ（ｊ）が乗算された複素スペクトルに対して、所定の周波数の範囲の中で複素スペクトルの最大スカラー値を求め、更に、複素スペクトルの各要素に対して、当該要素のスカラー値が最大スカラー値を超えない範囲内において所定の１以上のスケール値を乗算させる補正を施し、再改変複素スペクトルを算出する処理である。
図１３には、一例として、フレームｆとフレームｆ＋１に対する周波数次元圧縮処理が示されている。

周波数次元圧縮処理４９では、制御部２１は、フレームｆごとに、フィルタ関数Ｆ（ｆ,ｊ）が乗算された複素スペクトル成分に対して、ｊ＝ｊ１，・・・，ｊ２の範囲の中で、スカラー値｛Ａｍｌ’（ｆ,ｊ）^２＋Ｂｍｌ’（ｆ,ｊ）^２｝^１／２を最大にする値、及び、スカラー値｛Ａｍｒ’（ｆ,ｊ）^２＋Ｂｍｒ’（ｆ,ｊ）^２｝^１／２を最大にする値を、ＬＲチャンネル別に、Ｍｍｌ（ｆ）、及び、Ｍｍｒ（ｆ）として算出する。そして、制御部２１は、次式のように、１以上の実数値Ｓｃｌ（例えば、Ｓｃｌ＝２．０）を乗算する。

式（２０）〜（２３）によって乗算された結果のスカラー値が、｛Ａｍｌ’’（ｆ,ｊ）^２＋Ｂｍｌ’’（ｆ,ｊ）^２｝^１／２＞Ｍｍｌ（ｆ）、又は、｛Ａｍｒ’’（ｆ,ｊ）^２＋Ｂｍｒ’’（ｆ,ｊ）^２｝^１／２＞Ｍｍｒ（ｆ）となる場合、以下のようにＭｍｌ（ｆ）及びＭｍｒ（ｆ）を越えないようにＳｃｌを補正して乗算する。

｛Ａｍｌ’’（ｆ,ｊ）^２＋Ｂｍｌ’’（ｆ,ｊ）^２｝^１／２＞Ｍｍｌ（ｆ）の場合、制御部２１は、Ｓｃｌ’＝Ｍｍｌ（ｆ）／｛Ａｍｌ’（ｆ,ｊ）^２＋Ｂｍｌ’（ｆ,ｊ）^２｝^１／２を算出する。そして、制御部２１は、次式の通り、Ｓｃｌ’を乗算する。

同様に、｛Ａｍｒ’’（ｆ,ｊ）^２＋Ｂｍｒ’’（ｆ,ｊ）^２｝^１／２＞Ｍｍｒ（ｆ）の場合、制御部２１は、Ｓｃｌ’＝Ｍｍｒ（ｆ）／｛Ａｍｒ’（ｆ,ｊ）^２＋Ｂｍｒ’（ｆ,ｊ）^２｝^１／２を算出する。そして、制御部２１は、次式の通り、Ｓｃｌ’を乗算する。

ここで、周波数次元圧縮処理４９の意義について説明する。
聴覚感度補正処理４５を行ってフィルタ関数を作成すると、そのフィルタ関数を用いてフィルタリング処理が行われた音楽信号は、スペクトル特性が１／ｆから１／ｆ^２特性に近づき、低域部の勾配が急峻になる。音楽信号は元々離散的な周波数特性をもつが、このようにフィルタリング処理が行われた音楽信号は、最も効果的にマスキングが働く白色雑音の特性から程遠いことになる。
一方、例えば、特開２０１０−０３１５０１において提案されているエアコンノイズは、１／ｆカーブの連続スペクトル特性をもち、平坦な特性をもつ白色ノイズに比べマスキング効果は若干小さくなる程度である。しかし、音楽信号を連続的なスペクトルに変換させるとノイジーな不快感を加えることになり、音楽ではなくなってしまう。
そこで、本発明の実施の形態では、周波数次元圧縮処理４９によって、離散的なスペクトル特性の状態を維持したまま、低域部を白色雑音のように若干平坦に近づける。これによって、音楽の音色を維持したまま、マスキング効果を高めることができる。

図１４では、一般的な圧縮処理である時間次元圧縮処理と、本発明の実施の形態における周波数次元圧縮処理４９との作用の違いを模式的に示している。
時間次元圧縮処理が施されると、全体的に音圧が大きくなり、時間的起伏が少なくなる。つまり、時間次元圧縮処理を施すことによって生成される秘匿化データ７は、人間にとって煩わしく感じるものとなる。また、周波数特性には大きな変化が無いため、全体的にマスキング効果の増大はあまり期待できない。
一方、周波数次元圧縮処理４９が施されると、フラットな白色雑音特性が増える。また、時間的な振幅変化は維持される。つまり周波数次元圧縮処理４９を施すことによって生成される秘匿化データ７は、マスキング効果が高まると共に、人間にとって煩わしく感じることはない。

図１３の説明に戻る。フーリエ逆変換処理５０は、制御部２１が、周波数次元圧縮処理４９によって算出される再改変複素スペクトルのフーリエ逆変換を行い、秘匿化フレームデータＸｍｌ’（ｆ、ｉ）及びＸｍｒ’（ｆ、ｉ）（ｆ＝０、・・・、Ｆｍ−１；ｉ＝０、・・・、Ｎ−１）を算出する処理である。

各フレームｆのＡｍl’（ｆ、ｊ）、Ｂｍl’（ｆ、ｊ）、Ａｍｒ’（ｆ、ｊ）、Ｂｍｒ’（ｆ、ｊ）の各要素に対して周波数次元圧縮処理４９の結果を各々Ａｍl’’（ｆ、ｊ）、Ｂｍl’’（ｆ、ｊ）、Ａｍｒ’’（ｆ、ｊ）、Ｂｍｒ’’（ｆ、ｊ）とする。
フーリエ逆変換処理５０では、制御部２１は、変換対象のフレームｆの秘匿化フレームデータＸｍｌ’（ｆ、ｉ）及びＸｍｒ’（ｆ、ｉ）に対して、直前に変換されたフレームｆ−１の秘匿化フレームデータＸｍｌ’（ｆ−１、ｉ）及びＸｍｒ’（ｆ−１、ｉ）が存在する場合、両者が時間軸においてＮ／２サンプル分重複することを考慮し、次式のように計算を行う。

以上、本発明の実施の形態における秘匿化データ生成処理について説明したが、本発明の実施の形態におけるフィルタ関数作成処理３３では、音声最大値スペクトルＶｖ（ｊ）に基づく値を、音楽平均値スペクトルＶｍ（ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｊ）を算出し、更に、除算値スペクトルＤｉｖ（ｊ）の各値に対して、互いに対応する周波数ｊごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線Ｌ（ｊ）に基づく値を乗算することにより、フィルタ関数Ｆ（ｊ）を作成する。これによって、音声信号に対するマスキング効果を高めつつ、再生される音楽の音色を原音と同等に維持し、音量を絞って再生しても所定のマスキング効果を働かせることができる。
また、本発明の実施の形態におけるフィルタリング処理３４では、フレームｆごとに、フィルタ関数Ｆ（ｊ）が乗算された複素スペクトルに対して、所定の周波数の範囲の中で複素スペクトルの最大スカラー値を求め、更に、複素スペクトルの各要素に対して、当該要素のスカラー値が前記最大スカラー値を超えない範囲内において所定の１以上のスケール値を乗算させる補正を施した後、フーリエ逆変換を行う。これによって、音楽の音色を維持したまま、更にマスキング効果を高めることができる。
そして、本発明の実施の形態では、フィルタ加工を施すことによりＢＧＭ音楽の音色が不自然に変化することを避けることができ、従来よりもＢＧＭ音楽の再生音量を抑えながら、従来と同等以上のマスキング効果を働かせることができ、従来よりも静かで快適な音響環境で秘匿化効果を向上させることができる。

次に、図１５、図１６を参照しながら、秘匿化装置の設置例について説明する。図１５及び図１６に示す例では、秘匿化データ生成装置２によって秘匿化データ７が生成され、音楽再生装置３である音楽プレーヤ５２に記憶されているものとする。

図１５は、秘匿化装置１の第１の設置例を示している。
図１５に示す例では、平面スピーカ５１ａ及び５１ｂを挟んで左側が面談スペース６０であり、右側が待合スペース６５になっている。
面談スペース６０には、面談カウンターテーブル６１、店員用椅子６２、来客用椅子６３等が設置されている。面談カウンターテーブル６１は、パーティション６４によって区切られている。また、待合スペース６５には、待合ソファー６５が設置されている。顧客は、来店すると待合スペース６５において待機し、順番に面談スペース６０に呼ばれて店員と面談する。

平面スピーカ５１ａ及び５１ｂは、ハニカム構造のパネル及びスピーカ（エキサイタ）から構成されており、例えば、ポスラサウンドパネル（本出願人の登録商標）等である。
平面スピーカ５１ａ及び５１ｂのパネルは、待合スペース６５より面談カウンターテーブル６１にいる店員や来客が覗き込めないパーティション程度の大きさがあること望ましいが、Ａ３サイズ程度の面積しかない立て看板などでも十分に効果を発揮する。すなわち、会話音声７１が、平面スピーカ５１ａ及び５１ｂに物理的に遮られることなく、待合ソファー６５まで到達しても、本発明の秘匿化データ７によって十分なマスキング効果が得られる。
尚、ポスラ（本出願人の登録商標）サウンドパネルは、横幅１メートル程度まで製作可能である。

音楽プレーヤ５２は、平面スピーカ５１ａ及び５１ｂと接続され、本発明の実施の形態に係る秘匿化データ７を再生する。
図１５に示す例では、平面スピーカ５１ａ及び５１ｂが、それぞれ、マスカー音であるＢＧＭサウンドＬ７２ａ及びＢＧＭサウンドＲ７２ｂを出力している（ステレオ再生）。尚、ＢＧＭサウンドは、モノラル再生でも良く、平面スピーカの数や配置位置は、環境に応じて適宜変更すれば良い。

平面スピーカ５１ａ及び５１ｂは、音楽プレーヤ５２によって、秘匿化データ７の波面が平面波に近い音波として、平面から均一に放射する機構を有することが望ましい。これによって、待合スペース６５に伝搬される過程で減衰する音波のエネルギー量が、面談スペース６０から発声される会話音声７１に比べ平面スピーカ５１ａ及び５１ｂから出力されるＢＧＭサウンド７２ａ及び７２ｂの方が小さくなり、相対的にＢＧＭサウンド７２ａ及び７２ｂのエネルギー量が面談スペース６０から発声される会話音声７１に比べ大きくなるため、マスキング効果を高めることができる。このような平面スピーカ５１ａ及び５１ｂの一例としては、特開２００７−３０１８８８号公報に開示されている。特開２００７−３０１８８８号公報に開示されているスピーカは、微細な管構造アレイのパネルによって構成されており、平面波に近い音波を均一に放射する。

ここで、平面スピーカ５１ａ及び５１ｂが平面波に近い音波を放射することによって、マスキング効果を高めることができる理由について説明する。
図１５に示すように、会話音声７１は、球面波の音波として、観測位置である待合スペース６５に到達する。同様に、通常のダイナミックスピーカから再生されるＢＧＭも、球面波の音波である。
ここで、球面波の場合、距離の２乗に比例して伝搬される表面積が大きくなり音源に集中していたエネルギーが分散するため、エネルギー（音圧）が距離の２乗に反比例して減衰していくことが知られている。一方、平面波の場合、距離が離れてもエネルギーがあまり減衰しない。

すなわち、通常のダイナミックスピーカから再生されるＢＧＭは、球面波の音波であり、離れるとエネルギーが減衰するから、面談スペース６０により近い位置に待機している顧客に合わせて音量を調節すると、面談スペース６０により遠い位置に待機している顧客にはマスキング効果が十分に働かない場合がある。
一方、平面波に近い音波を放射する平面スピーカ５１ａ及び５１ｂを用いれば、再生されるＢＧＭサウンドＬ７２ａ、ＢＧＭサウンドＲ７２ｂは、平面波の音波であり、離れてもエネルギーがあまり減衰しないから、面談スペース６０により近い位置に待機している顧客に合わせて音量を調節しても、面談スペース６０により遠い位置に待機している顧客に対して十分なマスキング効果が働く。

図１６は、秘匿化装置１の第２の設置例を示している。
図１６に示す例では、平面スピーカ５１ｃ及び５１ｄを挟んで左側が第１応接スペース８１ａであり、右側が第２応接スペース８１ｂになっている。
第１応接スペース８１ａ及び第２応接スペース８１ｂには、それぞれ、１つの応接テーブル８２と４つの椅子８３が設置されている。
第１応接スペース８１ａ及び第２応接スペース８１ｂでは、それぞれ独立して、別々の顧客を応接するようになっている。

平面スピーカ５１ｃ及び５１ｄは、ハニカム構造のパネル及びスピーカ（エキサイタ）から構成されており、例えば、ポスラサウンドパネル（本出願人の登録商標）等である。図１６に示す平面スピーカ５１ｃ及び５１ｄは、第１の設置例よりも横幅のサイズを大きくして、パーティションの機能も果たすものである。
平面スピーカ５１ｃ及び５１ｄには、複数のスピーカ（エキサイタ）を備えており、それぞれのスピーカから、マスカー音であるＢＧＭサウンドＬ７２ａ、ＢＧＭサウンドＲ７２ｂが出力される。
第１の設置例と同様、平面スピーカ５１ｃ及び５１ｄは、音楽プレーヤ５２によって、秘匿化データ７の波面が平面波に近い音波として、平面から均一に放射する機構を有することが望ましい。

図１６に示すように、マスキー音である第１会話音声７１ａは、球面波の音波として、観測位置である第２応接スペース８１ｂに到達する。同様に、マスキー音である第２会話音声７１ｂは、球面波の音波として、観測位置である第１応接スペース８１ａに到達する。
第１会話音声７１ａに対しては、第２応接スペース８１ｂにおいて、平面スピーカ５１ｄから出力されるＢＧＭサウンドＬ７２ａ、ＢＧＭサウンドＲ７２ｂがマスカー音となり、マスキング効果を発揮する。同様に、第２会話音声７１ｂに対しては、第１応接スペース８１ａにおいて、平面スピーカ５１ｃから出力されるＢＧＭサウンドＬ７２ａ、ＢＧＭサウンドＲ７２ｂがマスカー音となり、マスキング効果を発揮する。

以上、秘匿化装置１の設置例を説明したが、前述したように、楽曲信号を再生するスピーカとして、平面波に近い音波を放射する平面スピーカを使用することによって、比較的低い音量でＢＧＭを流しても音声秘匿化効果を発揮できる。
また、平面スピーカは、Ａ３サイズ程度の立て看板から、横幅１メートル程度のパーティションまで、様々な態様とすることができる。
また、平面スピーカのパネル面の絵柄としては、壁紙などのインテリア素材やポスター広告を用いることができ、視覚的にもスピーカがむき出しになるようなインテリア上の不自然さを回避することができる。

尚、前述の説明では、平面スピーカが立て看板やパーティションとしたが、本発明の実施の形態はこれに限定されない。例えば、スピーカを部屋の壁に内蔵し、部屋の四方からマスカー音であるＢＧＭサウンドを出力させることも可能である。

次に、図１７〜図２４を参照しながら、実施例及び比較例について説明する。図１７、図１８は、実施例及び比較例に用いられるデータを示している。図１９、図２０は、比較例の結果を示している。図２１〜図２４は、実施例の結果を示している。
実施例では、聴覚感度補正処理４５、圧縮処理４９を行って、秘匿化データ７を生成した。一方、比較例では、聴覚感度補正処理４５、圧縮処理４９を行わずに、秘匿化データを生成した。

図１７は、実施例及び比較例の音声最大値スペクトルを示す図である。図１７には、周波数解析処理３２によって出力される音声データ４の音声最大値スペクトルが示されている。尚、この音声最大値スペクトルは、１２〜１３ｋＨｚにピークがある。

図１８は、実施例及び比較例の音楽平均値スペクトルを示す図である。図１８には、周波数解析処理３２によって出力される音楽データ５の音楽平均値スペクトルが示されている。
図１８を参照すると、この音楽平均値スペクトルは、１／ｆの曲線に近いことが分かる。

図１９は、比較例のフィルタ関数を示す図である。比較例のフィルタ関数は、聴覚感度補正処理４５、圧縮処理４９を行わずに作成されている。
後述する図２２と比較して、図１９を参照すると、５ｋＨｚ〜１０ｋＨｚの周波数成分の値が高いことが分かる。この為、比較例のフィルタ関数を用いてフィルタリング処理を行うと、ヒト音声信号成分が多く含まれる５ｋＨｚ〜１０ｋＨｚの周波数成分が強調され易い。５ｋＨｚ〜１０ｋＨｚの周波数帯域は、ヒト聴覚系の感度特性が比較的低い領域ではあるが、このフィルタ関数を用いて音楽信号にフィルタ加工を施すと、音色が不自然に変化して煩くなる。

図２０は、比較例のフィルタリング処理後の音楽信号を示す図である。図２０には、比較例のフィルタ関数を用いたフィルタリング処理が行われた音楽信号が示されている。
図２０に示す音楽信号は、前述したように、音色が不自然に変化して煩わしく感じる。
また、後述する図２３、図２４と比較して、図２０を参照すると、１０ｋＨｚ以上の高域部が高い値になっている。１０ｋＨｚ以上の周波数成分はヒト音声信号成分がそれなりに存在するが、ヒトの聴覚感度が低いため、マスキングにあまり寄与しない。従って、聴覚感度が高い４ｋＨｚ以下の帯域を基準に再生音量を設定することになり、不必要に全体の音圧レベルを上げてしまうことになる。従って、かなり音量を上げないと、マスキング効果が得られ難い。

図２１は、実施例の聴覚感度補正曲線を示す図である。図２１には、図４の下段に示す各周波数に対する聴覚感度補正曲線６の音圧レベルをプロットして示している。

図２２は、実施例のフィルタ関数を示す図である。図２２には、図２１に示す聴覚感度補正曲線６を用いて、フィルタ関数作成処理３３によって作成されたフィルタ関数が示されている。
図１９と比較して、図２２を参照すると、５ｋＨｚ〜１０ｋＨｚの周波数成分の値が低いことが分かる。この為、実施例のフィルタ関数を用いてフィルタリング処理３４を行うと、５ｋＨｚ〜１０ｋＨｚの周波数帯の強調度合いが抑えられて不自然な音色になることを回避できる。また、ヒトの聴覚感度が高く音声を識別するためのフォルマント成分に富む３００Ｈｚ〜３．４ｋＨｚの周波数帯が強調されることになり、再生音量をあまり上げなくてもマスキングが有効に働きやすくなる。

図２３は、実施例のフィルタリング処理後（圧縮なし）の音楽信号を示す図である。図２３には、実施例のフィルタ関数を用いたフィルタリング処理３４が行われた音楽信号が示されている。但し、図２３に示す音楽信号は、周波数次元圧縮処理４９が行われていない。
図２３に示す音楽信号は、前述したように、５ｋＨｚ〜１０ｋＨｚの周波数帯の強調度合いが抑えられて自然な音色となっている。また、ヒトの聴覚感度が高く音声を識別するためのフォルマント成分に富む３００Ｈｚ〜３．４ｋＨｚの周波数帯が強調され、再生音量をあまり上げなくてもマスキングが有効に働く。

図２４は、実施例のフィルタリング処理後（圧縮あり）の音楽信号を示す図である。図２４には、実施例のフィルタ関数を用いたフィルタリング処理３４が行われた音楽信号が示されている。また、図２４に示す音楽信号は、周波数次元圧縮処理４９が行われている。
図２４に示す音楽信号は、前述したように、５ｋＨｚ〜１０ｋＨｚの周波数帯の強調度合いが抑えられて自然な音色となっている。また、ヒトの聴覚感度が高く音声を識別するためのフォルマント成分に富む３００Ｈｚ〜３．４ｋＨｚの周波数帯が強調され、再生音量をあまり上げなくてもマスキングが有効に働く。
更に、図２３と比較して、図２４を参照すると、低域部が離散的な値を取りながら、全体として平坦になっていることが分かる。つまり、離散的なスペクトル特性の状態を維持したまま、低域部を白色雑音のように若干平坦に近づけることができている。これによって、音楽の音色を維持したまま、マスキング効果を高めることができる。

以上、添付図面を参照しながら、本発明に係る秘匿化データ生成装置等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

１………秘匿化装置
２………秘匿化データ生成装置
３………音楽再生装置
４………音声データ
５………音楽データ
６………聴覚感度補正曲線
７………秘匿化データ
１０………音声フレーム群
１１………音楽フレーム群
１２………音声最大値スペクトルデータ
１３………音声平均値スペクトルデータ
１４………フィルタ関数データ
３１………フレーム抽出処理
３２………周波数解析処理
３２ａ………周波数解析
３３………フィルタ関数作成処理
３４………フィルタリング処理
４１………瞬時スペクトル算出処理
４２………平均スペクトル算出処理
４３………臨界帯域幅補正処理
４４………除算処理
４５………聴覚感度補正処理
４６………平滑化処理
４７………フーリエ変換処理
４８………フィルタ関数乗算処理
４９………周波数次元圧縮処理
５０………フーリエ逆変換処理

Claims

対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成装置であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する周波数解析手段と、
前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、前記音楽平均値スペクトルＶｍ（ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｊ）を算出し、更に、前記除算値スペクトルＤｉｖ（ｊ）の各値に対して、互いに対応する周波数ｊごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線Ｌ（ｊ）に基づく値を乗算することにより、フィルタ関数Ｆ（ｊ）を作成するフィルタ関数作成手段と、
前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、前記フィルタ関数Ｆ（ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、
を具備することを特徴とする秘匿化データ生成装置。
前記フィルタ関数作成手段が用いる前記聴覚感度補正曲線Ｌ（ｊ）は、４０フォンの等ラウドネス曲線に基づいて定義される
ことを特徴とする請求項１に記載の秘匿化データ生成装置。
前記フィルタリング手段は、フレームｆごとに、前記フィルタ関数Ｆ（ｊ）が乗算された複素スペクトルに対して、所定の周波数の範囲の中で前記複素スペクトルの最大スカラー値を求め、更に、前記複素スペクトルの各要素に対して、当該要素のスカラー値が前記最大スカラー値を超えない範囲内において所定の１以上のスケール値を乗算させる補正を施した後、前記フーリエ逆変換を行う
ことを特徴とする請求項１又は請求項２に記載の秘匿化データ生成装置。
前記フィルタ関数作成手段は、
前記音声最大値スペクトルＶｖ（ｊｃ）（ｊｃは特定の周波数）を、周波数ｊｃよりも高域側の範囲内の最大値に置換することによって、置換音声最大値スペクトルを算出し、
前記音楽平均値スペクトルＶｍ（ｊｃ）を、周波数ｊｃの前後の範囲内の平均値に置換することによって、置換音楽平均値スペクトルを算出し、
前記置換音声最大値スペクトルを前記置換音楽平均値スペクトルによって除した値を、前記除算値スペクトルＤｉｖ（ｊ）とする
ことを特徴とする請求項１乃至請求項３のいずれかに記載の秘匿化データ生成装置。
前記フィルタ関数作成手段は、前記フィルタ関数Ｆ（ｊ）の各値に対して前記聴覚感度補正曲線Ｌ（ｊ）に基づく値を乗算した後、周波数ｊの前後の範囲内の平均値に置換することによって、前記フィルタ関数Ｆ（ｊ）を平滑化する
ことを特徴とする請求項１乃至請求項４のいずれかに記載の秘匿化データ生成装置。
前記周波数解析手段は、前記音楽平均値スペクトルＶｍ（ｆ,ｊ）として、前記音楽データの各フレームｆの前後Ｍフレームに渡って時間軸方向に平均化したスペクトルをフレームｆごとに算出し、
前記フィルタ関数作成手段は、前記除算値スペクトルＤｉｖ（ｆ,ｊ）として、前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する前記音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値を算出し、更に、前記除算値スペクトルＤｉｖ（ｆ,ｊ）の各値に対して、互いに対応する周波数ｊごとに前記聴覚感度補正曲線Ｌ（ｊ）に基づく値を乗算することにより、前記フィルタ関数Ｆ（ｆ,ｊ）を作成する
ことを特徴とする請求項１乃至請求項５のいずれかに記載の秘匿化データ生成装置。
複数の前記音楽データを記憶する音楽データ記憶手段と、
前記音楽データ記憶手段によって記憶されている前記音楽データの中から単一の前記音楽データを選択する音楽データ選択手段と、
を更に具備し、
前記音楽データ選択手段によって選択された単一の前記音楽データに基づいて、前記秘匿化データを生成する
ことを特徴とする請求項１乃至請求項６のいずれかに記載の秘匿化データ生成装置。
請求項１乃至請求項７のいずれかに記載の秘匿化データ生成装置が生成する複数の前記秘匿化データを記憶する秘匿化データ記憶手段と、
前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択手段と、
前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生手段と、
を具備することを特徴とする秘匿化装置。
請求項８に記載の前記秘匿化データ再生手段が前記秘匿化データを波面が平面波に近い音波として所定平面から均一に放射する機構をもつ平面型スピーカによって構成されている
ことを特徴とする秘匿化装置。
対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成方法であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する周波数解析ステップと、
前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、前記音楽平均値スペクトルＶｍ（ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｊ）を算出し、更に、前記除算値スペクトルＤｉｖ（ｊ）の各値に対して、互いに対応する周波数ｊごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線Ｌ（ｊ）に基づく値を乗算することにより、フィルタ関数Ｆ（ｊ）を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、前記フィルタ関数Ｆ（ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、
を含むことを特徴とする秘匿化データ生成方法。
請求項１０に記載の秘匿化データ生成方法によって生成する複数の前記秘匿化データを記憶する秘匿化データ記憶ステップと、
前記秘匿化データ記憶ステップによって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択ステップと、
前記秘匿化データ選択ステップによって選択された単一の前記秘匿化データを再生する秘匿化データ再生ステップと、
を含むことを特徴とする秘匿化方法。
コンピュータに、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する周波数解析ステップと、
前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、前記音楽平均値スペクトルＶｍ（ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｊ）を算出し、更に、前記除算値スペクトルＤｉｖ（ｊ）の各値に対して、互いに対応する周波数ｊごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線Ｌ（ｊ）に基づく値を乗算することにより、フィルタ関数Ｆ（ｊ）を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、前記フィルタ関数Ｆ（ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、
を実行させるためのコンピュータ読取可能なプログラム。