JP5103974B2

JP5103974B2 - マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム

Info

Publication number: JP5103974B2
Application number: JP2007075283A
Authority: JP
Inventors: 敦子伊藤; 寧清水; 晃三木; 雅人秦
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-03-22
Filing date: 2007-03-22
Publication date: 2012-12-19
Anticipated expiration: 2027-03-22
Also published as: JP2008233672A

Description

本発明は、マスキングサウンドを生成する技術に関する。

ある音（対象音）が聞こえているときに対象音に近い音響特性（周波数特性など）を持つ別の音（マスキングサウンド）が存在すると、その対象音が聞こえにくくなるという現象が一般に知られており、マスキング効果と呼ばれている。マスキング効果は、人間の聴覚特性に根ざしたものであり、マスキングサウンドの周波数が対象音の周波数に近いほど、また、マスキングサウンドの音量レベルが対象音の音量レベルに対して相対的に高いほど顕著になることが知られている。

このマスキング効果を利用した音響技術は、従来種々提案されており、その例として特許文献１ないし２に開示された技術が挙げられる。特許文献１には、取得した音を所定のフレームに分割し、各フレーム内で時間的に逆に再生することにより音を無意味化しマスキングサウンドを生成する技術が開示されている。また、特許文献２には、音信号を複数のセグメントに分割し、この複数のセグメントの順序を入れ替えることにより音を無意味化しマスキングサウンドを生成する技術が開示されている。
特願２００６−２４２３４４号公報特表２００５−５５４０６１号公報

特許文献１および２に記載の技術によれば、収音した音からリアルタイムにマスキングサウンドを生成するため、音信号の処理に高いパフォーマンスが要求されていた。
本発明は上記の問題に鑑みてなされたものであり、マスキングしたい音の音響特性をマスキングするのに最も適した音響特性を有するマスキングサウンドを生成する技術を提供することにある。

本発明に係るマスキングサウンド生成装置は、話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段と、収音した音の話速を含む音響特性を分析する音響特性分析手段と、前記音響特性分析手段により分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段とを具備し、音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速としたことを特徴とする

また、本発明に係るマスキングサウンド生成装置は、話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段と、マスキングされる音の音響特性に関する情報を、操作者から受取る受取手段と、前記受取手段により受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段とを具備し、音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速としたことを特徴とする。

また、本発明に係るマスキングサウンド生成装置は、話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶する記憶手段と、前記記憶手段に記憶されたスクランブル音信号のいずれかを、操作者から指定する指示信号を受取る受取手段と、前記受取手段により受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力手段とを具備し、音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速としたことを特徴とする。

本発明に係るマスキングサウンド生成装置は、上記の構成において、音信号を受取り、話速が大きいほど一の区間の時間長を短くするように、当該音信号を所定時間長の区間に分割して再構成することにより、受取った音信号の時系列が変更されたスクランブル音信号を生成し、前記記憶手段に記憶させるスクランブル手段を具備することを特徴とする。

また、本発明に係るマスキングサウンド生成装置は、一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、前記スクランブル手段により生成されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々の音響特性を記憶する記憶手段と、収音した音の音響特性を分析する音響特性分析手段と、前記音響特性分析手段により分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段とを具備することを特徴とする。

また、本発明に係るマスキングサウンド生成装置は、一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、前記スクランブル手段により生成されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々の音響特性を記憶する記憶手段と、マスキングされる音の音響特性に関する情報を、操作者から受取る受取手段と、前記受取手段により受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段とを具備することを特徴とする。

また、本発明に係るマスキングサウンド生成装置は、一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、前記スクランブル手段により生成されたスクランブル音信号を複数記憶する記憶手段と、前記記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取手段と、前記受取手段により受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力手段とを具備することを特徴とする。

本発明に係るマスキングサウンド生成装置は、上記の構成において、前記スクランブル手段は、一の音信号を一定長の前記所定時間長の区間に分割してもよい。
また、本発明に係るマスキングサウンド生成装置は、上記の構成において、前記スクランブル手段は、前記複数の音信号で異なる時間長の区間に分割してもよい。

また、本発明に係るマスキングサウンド生成装置は、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について音響空間の種類を含む音響特性を記憶し、更に、ランダムノイズの音信号を記憶する記憶手段と、マスキングされる音が放音される音響空間の種類を含む音響特性に関する情報を、操作者から受取る受取手段と、前記受取手段により受取られた情報が示す前記音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較して、前記スクランブル音信号又は前記ランダムノイズの音信号を決定し、前記記憶手段から該決定したスクランブル音信号又はランダムノイズの音信号を読出して出力する出力手段とを具備することを特徴とする。

本発明は、マスキングサウンド生成装置のほか、マスキングサウンド生成方法、プログラムとしても概念することが可能である。

本発明に係るマスキングサウンド生成装置、マスキングサウンド生成方法およびプログラムにより、マスキングしたい音の音響特性をマスキングするのに最も適した音響特性を有するマスキングサウンドを生成することができる。

以下、本発明の実施形態について図面を用いて説明する。
（Ａ；構成）
（Ａ−１；全体構成）
図１は、本発明に係るサウンドマスキングシステム１の構成を示す図である。図１に示すように、音響空間２０Ａには、マイクロホン３０が天井から吊り下げられて設置されている。音響空間２０Ｂにはスピーカ４０が天井から吊り下げられて設置されている。

マイクロホン３０は、音響空間２０Ａにおける音（人間の話し声や空調の動作音などの可聴音）を収音してアナログの音信号に変換し、マスキングサウンド生成装置１０へ出力する。
スピーカ４０は、マスキングサウンド生成装置１０からアナログの音信号を受取り、音響空間２０Ｂにおいて再生する。

（Ａ−２；マスキングサウンド生成装置１０の構成）
次に、マスキングサウンド生成装置１０の構成について図２を参照して説明する。マスキングサウンド生成装置１０は、マスキングサウンド（マスカー）を表す音信号を生成する。該マスキングサウンドは音響空間２０Ｂにおいて放音され、音響空間２０Ａにおける会話の内容を他の音響空間２０Ｂのユーザに聞きとられにくくしたり（セキュリティーの保護）、他の音響空間２０Ｂのユーザが音響空間２０Ａから漏れ聞こえる音により会話が妨害されたり作業の集中を乱されたりしないようにする（騒音のマスキング）。

ＣＰＵ（Central Processing Unit）１００は、記憶部２００に格納されている各種プログラムを実行することにより本発明に特徴的な動作を行ったり、マスキングサウンド生成装置１０の各部の動作を制御したりする。

音声入力部３００は、アナログ／デジタル（以下、「Ａ／Ｄ」と略記する）コンバータ３１０と入力端子３２０とを有する。入力端子３２０にはマイクロホン３０が接続されており、マイクロホン３０により生成された音信号は、入力端子３２０を介してＡ／Ｄコンバータ３１０へ入力される。Ａ／Ｄコンバータ３１０は、マイクロホン３０から受取った音信号にＡ／Ｄ変換を施し、デジタルの音信号をＣＰＵ１００へ出力する。

音声出力部４００は、Ｄ／Ａコンバータ４１０とアンプ４２０と出力端子４３０とを有する。Ｄ／Ａコンバータ４１０は、ＣＰＵ１００から受取った音信号に対して、Ｄ／Ａ変換を施すことによってアナログの音信号へ変換する。アンプ４２０は、Ｄ／Ａコンバータ４１０から受取った音信号の振幅（マスタボリューム）を最適な値に調整して、マスキング効果が最大となるように制御する。音信号の増幅率は、後述する操作部５００からの信号に基づいてＣＰＵ１００により制御される。出力端子４３０はスピーカ４０と接続されており、音信号はスピーカ４０へ出力され、音響空間２０Ｂにおいてマスキングサウンド（マスカー）として放音される。

操作部５００はタッチパネルを有する入力装置であり、マスキングサウンド生成装置１０のユーザにより該タッチパネルが押下された場合に、操作内容をＣＰＵ１００へと出力する。図３は、操作部５００の外観を示した図である。操作部５００のタッチパネルは、動作モード選択部５１０、音信号選択部５２０、性別選択部５３０、年齢選択部５４０、言語選択部５５０、音響空間選択部５６０、および音量レベル選択部５７０を有する。

ユーザによりタッチパネル上の特定の領域が押下されると、該領域は同図に例示されているように選択された領域が網掛け表示となると共に、対応する項目が選択されたことを示す信号がＣＰＵ１００に出力される。なお、音量レベル選択部５７０においては、大きい数字ほど大きい音量レベルが対応付けられている。以下ではそれらの信号を、それぞれ動作モード選択情報、音信号選択情報、性別選択情報、年齢選択情報、言語選択情報、音響空間選択情報、および音量レベル選択情報と呼ぶ。また、性別選択情報、年齢選択情報、言語選択情報、および音響空間選択情報を条件設定情報と総称する。

再び図２において、光ディスク再生装置６００は、装着された光ディスクから記録されているデータを読み出す装置である。読み出されたデータは、ＣＰＵ１００へ出力される。

記憶部２００は、ＲＯＭ（Read Only Memory）２１０およびＲＡＭ（Random Access Memory）２２０を有する。
ＲＯＭ２１０は、本発明に特徴的な機能をＣＰＵ１００に実行させるための制御プログラムやデータが格納されている。
ＲＡＭ２２０は、各種の記憶領域を有し、ＣＰＵ１００によってワークエリアとして利用される。また、ＲＡＭ２２０は、音声入力部３００から受取った各音信号を所定時間分記憶可能な音信号記憶領域を有する。前記所定時間は長時間であるほど好ましく、マスキングサウンド生成装置としては高い性能を有するが、ハード資源の容量や性能により上限値があるため、本実施形態においては一例として１８０秒に設定した。また、ＲＡＭ２２０は、マスキングサウンドの音信号生成に係るパラメータなど各種のデータを記憶する。
以上に説明した各ユニットは、バス７００を介して接続されており、互いにデータの授受を行う。

（Ａ−３；制御プログラムおよびデータ）
次に、ＲＯＭ２１０に記憶されている制御プログラムについて説明する。ＣＰＵ１００は、制御プログラムを実行することにより、以下に説明する処理を始めとする各種の処理を実行する。

まず、「音響特性分析処理」について説明する。音響特性分析処理とは、入力された音信号を所定長の区間に分割し、生成された各断片（以下、フレームと呼ぶ）における話速、フォルマント、および周波数特性を分析する処理である。

まず、話速の分析について説明する。本実施形態において、「話速（発話速度）」とは、音声が発せられるときの速さであり、単位時間あたりの音節数などで定義される。ここで音節とは、一定の声の長さを持つ音素（例えば母音）のまとまり、または一定の声の長さを持つ音素の前および／または後に非常に短い音素（例えば子音）を従えるまとまりを意味する。音響特性分析処理において、ＣＰＵ１００は、受取った音信号の各フレームについて、音信号の時間軸波形を生成し、当該時間軸波形のエンベロープ（包絡線）にスムージング処理を施す。そしてスムージング処理された波形から各音節を構成する波形のピーク位置をフレームごとに検出して、ピーク数を計測する。その後、当該ピーク数を音節数とし、音節数をフレーム長で除した単位時間あたりの音節数を話速として算出する。ここでピークとは、各音節を構成する波形においてレベルが最大の箇所を言う。話速はフレーム毎に異なるが、ＣＰＵ１００は、上記フレームごとにその時点での話速を分析し、それらの値の平均値、該平均値のフレーム間のばらつきである標準偏差σを算出し出力する。

次に、フォルマントの分析について説明する。フォルマントとは、音声のスペクトル包絡上で特定の周波数領域にエネルギーが集中して生じる山である。これは、人間の声などが固有に持っている周波数スペクトル（倍音成分の分布パターン）であり、声の高さや強さに依存しないという特徴を有する。フォルマントを分析することで、話者の性別、年齢、使用言語などを読み取ることができることが知られている。音響特性分析処理において、ＣＰＵ１００は、受取った音信号の各フレームにおける波形をフーリエ変換する。そしてＣＰＵ１００は、フーリエ変換により得られた振幅スペクトルの対数を求め、それをフーリエ逆変換して各フレームのスペクトル包絡を生成する。そしてＣＰＵ１００は、得られたスペクトル包絡の低い周波数から第１フォルマントの周波数および第２フォルマントの周波数、第３フォルマントの周波数を抽出する。なお、本実施形態においては、第１ないし第３フォルマントの周波数を抽出するが、そのうちいずれか１つまたは２つ、または第４フォルマント以降について分析しても良い。

次に、周波数特性の分析について説明する。ＣＰＵ１００は、受取った音信号をフレームごとに読み出し、フーリエ変換により各フレームの周波数領域のスペクトルデータを生成する。生成されたスペクトルデータからは、音信号が表す音のピッチなどを読み取ることが出来る。
以上が、音響特性分析処理である。

次に、音信号の「リバース処理」について説明する。リバース処理において、ＣＰＵ１００は、受取った音信号の各フレームを一旦時間軸領域の信号に変換する。そして、該音信号の各フレームを時間軸において逆から読み出し、各音信号を新たな音信号へ変換する。本処理は、すなわち元の音信号が生成された順序とは逆の時間的順序で古いデータから読み出して新たな音信号を生成する処理である。このリバース処理により生成された音信号からは、処理前の音信号に含まれていた内容を理解することはできない。

次に、音信号の各フレームの「窓掛け処理」について説明する。窓掛け処理とは、内容が連続していないフレーム同士を接続する場合に、その音がスムーズに移行するように接続部分の波形を変換する処理である。
具体的には、ＣＰＵ１００は、例えば三角関数などからなる「整形関数」を各フレームの音信号に乗算することにより、各フレームの頭部では滑らかに立ち上がるように、そして各フレームの尾部では滑らかに立ち下がるように整形する。音響処理により連続した音信号が複数のフレームに分割され、元の音信号と異なる順序で接続された場合には、その接続部分においてクリックノイズが発生することがあるが、この窓掛け処理により該ノイズは除去される。

次に、ＲＯＭ２１０に記憶されているデータについて説明する。
まず、「フレーム長選択テーブル」について説明する。図４は、フレーム長選択テーブルの１例を示した図である。フレーム長選択テーブルにおいては、上述した話速の範囲に対してフレーム長が対応付けられている。例えば、話速７．５以上１２．５未満〔秒^−１〕に対して、フレーム長の値０．１０〔秒〕が対応付けられている。ここで、１フレーム長は、話速が各話速の範囲の中間の値であるときの１音節の時間と同程度に設定した。すなわち、話速１０〔秒^−１〕では１音節の発話速度は０．１０秒であり、話速１０〔秒^−１〕が含まれる話速７．５以上１２．５未満の範囲に対応するフレーム長をこの１音節の発話時間（０．１０秒）に設定した。これは、１フレーム長が１音節より極端に短い時間の場合には、１音節が複数フレームに分割され、各フレームをリバース再生しても元の音節として認識されるおそれがあり、１フレーム長が１音節より極端に長い時間の場合には、各フレームをランダムに再構成しても１フレーム内の各音節がそのまま認識されるおそれがあるからである。

次に、「スクランブル音信号」について説明する。スクランブル音信号とは、人間の音声をスクランブル（無意味化または理解不能化）した音信号である。具体的には、人間の音声を収音して対応する波形データを生成し、所定時間（例えば１００ミリ秒）ごとに複数のフレームに分割し、それらを元の音声とは異なる順序で組み合わせて新たに生成した音信号である。本実施形態においては、複数のスクランブル音信号（スクランブル音信号１、２、３…）が、後述する初期設定処理においてＲＯＭ２１０に格納される。なお、人間は、このスクランブル音信号から言語としての意味を理解することはできない。
また、ＲＯＭ２１０には、人の音声の音信号以外に、広帯域ノイズの一例としてホワイトノイズの音信号も記憶されている。なお、ホワイトノイズとは、測定周波数帯域において一様なパワースペクトル密度を有する雑音である。

次に、「スクランブル音信号選択テーブル」について説明する。図５に示すように、スクランブル音信号選択テーブルにおいては、ＲＯＭ２１０に格納されたスクランブル音信号の各々を特定可能なスクランブル音信号番号に対して、その音の発音体属性情報、および音響特性情報が書き込まれている。発音体属性情報には、そのスクランブル音信号の元となった音声を発音した人の性別、年齢、言語、および名前が含まれる。例えば、スクランブル音信号１は、３０歳の日本人男性である「Ａさん」により吹き込まれた音声から生成されたものである。音響特性情報には、該スクランブル音信号の話速、フォルマント、および周波数特性に関するデータが含まれる。なお、フォルマント、および周波数特性の項目には、フォルマント、および周波数特性のデータを一意に識別するためのファイル名が書き込まれており、データは別途ＲＯＭ２１０に書き込まれている。

（Ｂ；動作）
次に、本実施形態の動作について説明する。
（Ｂ−１；初期設定処理）
ＣＰＵ１００は、マスキングサウンドを生成の前に初期設定処理を行う。図６は、初期設定処理におけるＣＰＵ１００が行う処理の流れを示したフローチャートである。

まず、ステップＳＡ１００において、ＣＰＵ１００は音信号を受信する。ここで、ＣＰＵ１００が音信号を受信する方法は２つある。１つは、ユーザがマイクロホン３０を介して音声を吹き込み、ＣＰＵ１００は、音声入力部３００を介して音信号を受取る方法である。もう１つの方法は、音信号が書き込まれた光ディスクから光ディスク再生装置６００により音信号を読み出す方法である。この場合、光ディスクとしては、例えば既製品として販売されている光ディスクでもよいし、ユーザが予め音信号を光ディスクに書き込んだものでも良い。

ユーザは、上記いずれかの方法で音信号を入力し終えると、該音信号に関する発音体属性情報（該音声を発音した人の性別、年齢、言語、および名前）について図示せぬ入力手段を介して入力する。ＣＰＵ１００は、受取った音信号と発音体属性情報とを、相互に関連付けて一旦ＲＡＭ２２０に書き込む。

本動作例においては、前者の方法すなわちマイクロホン３０を介して音声を入力する方法と、後者の方法すなわち光ディスクなどの記憶媒体から音信号を読み出す方法を併用する。前者の方法で入力される音信号は、以下の通りである。スクランブル音信号１および２の元となる音信号として、それぞれ３０歳の日本人男性である「Ａさん」、２５歳の日本人女性である「Ｂさん」の発音を表す音信号が入力される。また、スクランブル音信号３の元となる音信号として、平均年齢２５歳の日本人の男女５人からなる「Ｃグループ（５人）」の発音を表す音信号が入力される。

また、後者の方法で入力される音信号は以下の通りである。スクランブル音信号４の元となる音信号として、１０歳の日本人の男児の発音を表す音信号が入力される。また、スクランブル音信号５の元となる音信号として、３０歳のイギリス人男性の音から生成された音信号が入力される。

なお、入力すべき音信号は、各ユーザが音響空間２０Ａを利用する頻度、および音響空間２０Ａにおいて使用される言語の種類を参考にして選択すれば良い。例えば、音響空間２０Ａが、「Ａさん」や「Ｂさん」や「Ｃグループ」により頻繁に利用されたり、頻繁に英語による会議が行われるような場合には、上述のようにそれら頻繁に利用する人の音声や使用言語の音信号を入力しておくと良い。

次に、ステップＳＡ１１０において、ＣＰＵ１００は、音響特性分析処理を行う。具体的には、ＣＰＵ１００は、ＲＡＭ２２０に書き込まれた各音信号において、話速、フォルマント、および周波数特性を分析し、その分析結果である音響特性情報を各分析対象となった音信号と関連付けて一旦ＲＡＭ２２０に書き込む。

ステップＳＡ１２０において、ＣＰＵ１００は、ＲＯＭ２１０に格納されたスクランブル音信号選択テーブルの更新を行う。具体的には、ＣＰＵ１００は、各音信号に関する発音体属性情報と音響特性とをＲＡＭ２２０から読み出し、スクランブル音信号選択テーブルに書き込む。その際、図５に示すように、スクランブル音信号１、２、３、４、および５の元となる音信号に関する発音体属性情報と音響特性は、それぞれスクランブル音信号１、２、３、４、および５の欄に書き込む。

ステップＳＡ１３０において、ＣＰＵ１００は、音信号スクランブル処理を行う。図７は、音信号スクランブル処理の流れを示すフローチャートである。また、図８は、音信号スクランブル処理に伴う音信号の波形を示した図である。

図７のステップＳＢ１００において、ＣＰＵ１００は、ＲＡＭ２２０に書き込まれた音信号を複製する。本動作例においては、ＣＰＵ１００は、音信号を３つに複製し、複製された音信号をＲＡＭ２２０に書き込む。なお、以下ではこれらの音信号を音信号Ａ、Ｂ、およびＣと呼ぶ。以下に説明するステップＳＢ１１０ないしステップＳＢ１５０は、音信号Ａ、Ｂ、およびＣのそれぞれについて行われ、それらの音信号は互いに異なる音信号へと変換される。以下の処理は、３つの音信号について同時に実行しても良いし、順次実行しても良い。

ステップＳＢ１１０において、ＣＰＵ１００は、音信号のフレーム化を以下のように行う。すなわち、ＣＰＵ１００は、当該音信号の話速に関する情報をＲＡＭ２２０から読み出す。そしてＣＰＵ１００は、ＲＯＭ２１０に記憶されているフレーム長選択テーブルにおいて、平均値、平均値＋σ、平均値−σの値に対応付けられたフレーム長を読み出し、ＲＡＭ２２０に書き込まれた音信号Ａ、Ｂ、およびＣを読み出したそれぞれのフレーム長で分割し、分割した結果生成されたフレームをＲＡＭ２２０に書き込む。なお、図８の（ａ）―Ａ、（ａ）―Ｂ、および（ａ）―Ｃには、音信号Ａ、Ｂ、およびＣが異なるフレーム長で分割された状況が示されている。

ステップＳＢ１２０において、ＣＰＵ１００は、ＲＡＭ２２０に書き込まれた音信号のフレームの各々について、上述したリバース処理を行う。リバース処理がなされた結果、音信号Ａ、Ｂ、およびＣの各フレームは、それぞれ図８の（ｂ）―Ａ、（ｂ）―Ｂ、および（ｂ）―Ｃに示されるようにフレーム内で時間的に逆に倒置されたデータに変換される。

ステップＳＢ１３０において、各フレームには窓掛け処理が行われる。その結果、各フレームの頭部および尾部に対応する部分の波形が整形される。
ステップＳＢ１４０において、ＣＰＵ１００は、各音信号についてその複数のフレームの順序をランダムに並べ替える（図８（ｃ）参照）。
ステップＳＢ１５０において、ＣＰＵ１００は、並べ替えられたフレームの音信号をつなぎ合わせ、新たな音信号を生成する。
ステップＳＢ１６０において、ＣＰＵ１００は、ステップＳＢ１１０ないし１５０においてそれぞれ別個に処理がなされた音信号Ａ、Ｂ、およびＣをミキシング処理し、スクランブル音信号を生成する（図８（ｄ）参照）。

以上の処理により生成されたスクランブル音信号は、以下のような特徴を持つ。すなわち、生成されるスクランブル音信号においては、元の音信号の音量レベルの変動幅が小さくなり、平均的な音量レベルに収束する。なぜならば、元の音信号は短いフレームで分割されそれらのフレームはランダムに順序が並べ替えられているだけでなく、そのような処理がなされた複数の音信号が重ねあわされているからである。このため、スクランブル音信号の音量レベルは略一定に保たれており、元の音信号の音量レベルの変動によるマスキング効果の不安定さが低減される。

また、音信号を分割するフレーム長は話速に応じて適切に設定されるため、元の音に含まれていた音素は適切に分割されており、高いマスキング効果を有する。また、音素の分割やフレーム内のリバース処理により音の無意味化が十分になされており、ユーザのプライバシーやセキュリティーは保護される。また、各フレームのつなぎ目においては窓掛け処理がなされていることから、生成されたスクランブル音信号は滑らかにつながった音信号となる。

再び図６において、ＣＰＵ１００は、ステップＳＡ１４０において、生成されたスクランブル音信号をＲＯＭ２１０に書き込む。
また、ＣＰＵ１００は、音信号選択部５２０の各選択肢の右横に、スクランブル音信号選択テーブルにおいて該番号のスクランブル音信号に関連付けられた「名前」を表示する。

なお、ＲＯＭ２１０には、ホワイトノイズを表す音信号も予め格納されている。従って、初期設定処理を終えた段階で、ＲＯＭ２１０には、マスキングサウンドの元となる音信号として、スクランブル音信号とホワイトノイズの音信号が格納された状態となる。

（Ｂ−２；マスキングサウンド生成処理）
次に、マスキングサウンド生成処理について説明する。図９は、マスキングサウンド生成処理の流れを示したフローチャートである。
マスキングサウンド生成装置１０のユーザは、マスキングサウンド生成処理を実行させるにあたり、操作部５００の動作モード選択部５１０を操作し、１または２のいずれかの動作モードを選択する。操作部５００は、選択された動作モードを示す動作モード情報をＣＰＵ１００に出力する。以下では、ユーザによりそれぞれの動作モードが選択された場合のマスキングサウンド生成処理について説明する。

（Ｂ−２−１；動作モード１）
本動作モードは、音響空間２０Ａにおける音の音響特性に基づいて、マスキングサウンドを生成する上で適切なスクランブル音信号が自動的に選択されるモードである。

ステップＳＣ１００において、ＣＰＵ１００は、動作モード情報を受信する。
ステップＳＣ１１０において、ＣＰＵ１００は、受信した動作モード情報が１であるか否かを判断する。本動作モードにおいては、動作モード情報は「１」であるから、ステップＳＣ１１０の判断結果は“Ｙｅｓ”となり、ステップＳＣ１２０の処理が行われる。

ステップＳＣ１２０において、ＣＰＵ１００は、音響空間２０Ａにおける音を表す音信号を受取り、該音信号の音響特性分析処理を行う。本処理は、初期設定処理における音響特性分析処理と同様であるため、その説明を省略する。

ステップＳＣ１３０において、ＣＰＵ１００は、ステップＳＣ１２０の音響特性分析処理の結果に基づいて、ＲＯＭ２１０に書き込まれたスクランブル音信号からいずれか１つ適切な音信号を読み出す。すなわち、ＣＰＵ１００は、ステップＳＣ１２０における分析結果として得た音響特性（話速、フォルマント、および周波数特性）を、スクランブル音信号選択テーブルと照らし合わせ、最も音響特性が類似しているスクランブル音信号を選択する。

ステップＳＣ１４０において、ＣＰＵ１００は、読み出した音信号（本実施形態では１８０秒のデータ）をマスキングサウンドとして出力する。なお、スクランブル音信号は、１８０秒間のデータであるから、出力を開始してから１８０秒後以降は、該スクランブル音信号をループ状に繰り返し出力する。なお、出力されるスクランブル音信号の音量レベルは、使用者により音量レベル選択部５７０により入力された音量レベルに応じて最適な値に設定され、該処理は割り込み処理として実行される。

本動作モードにおいては、音響空間２０Ａにおける音の音響特性を分析し、該音と最も音響特性が類似したスクランブル音信号がＲＯＭ２１０に格納された多数のスクランブル音信号から選択される。上述のように、マスキングサウンドが対象音の音響特性と類似している場合に最も高いマスキング効果が発揮される。従って、出力されるマスキングサウンドは、音響空間２０Ａにおいて生じている音をマスキングするのに最も適した音響特性を有する。

（Ｂ−２−２；動作モード２）
次に、動作モード２おけるマスキングサウンド生成処理について説明する。本動作モードは、ユーザの指示内容に従ってマスキングサウンドが自動的に選択されるモードである。

ステップＳＡ１００において、ＣＰＵ１００は、動作モード情報を受信する。
ステップＳＡ１１０において、ＣＰＵ１００は、受信した動作モード情報が１であるか否かを判断する。本動作モードにおいては、動作モード情報は「２」であるから、ステップＳＣ１１０の判断結果は“Ｎｏ”となり、ステップＳＣ１５０の処理が行われる。

さて、ユーザは、次のいずれかの方法によりマスキングサウンドの生成に係るパラメータを入力する。まず１つめの方法について説明する。ユーザは、操作部５００の音信号選択部５２０の右横に表示されている「名前」を参照し、いずれかの音信号を直接指定する。例えば音響空間２０Ａにおいて「Ａさん」が発声する場合には、ユーザは、音信号選択部５２０において「１」を押下し、英語による会議が行われる場合には、「５」を押下する。

もう１つの方法は、ユーザが、性別選択部５３０、年齢選択部５４０、言語選択部５５０、および音響空間選択部５６０の中から１つまたは複数について、特定の選択肢を選択する方法である。この場合、前記選択された情報に基づいてＣＰＵ１００が音信号を選択する。例えば、「大人」の「男性」が「執務室」において「英語」で話をする場合には、図３に示すように性別選択部５３０、年齢選択部５４０、言語選択部５５０、および音響空間選択部５６０の各項目が選択される。

操作部５００は、上述の操作内容に応じて音信号選択情報または条件設定情報を出力する。
ステップＳＣ１５０において、ＣＰＵ１００は、操作部５００から音信号選択情報または条件設定情報を受信する。

ステップＳＣ１３０において、ＣＰＵ１００は、操作部５００から受取った音信号選択情報または条件設定情報に基づいて音信号を選択する。すなわち、ＣＰＵ１００が音信号選択情報を受取った場合には、該音信号選択情報が表すスクランブル音信号をＲＯＭ２１０から読み出してマスキングサウンドとして出力する。また、ＣＰＵ１００が条件設定情報を受信した場合には、該条件設定情報に書き込まれた性別、年齢、言語、そして音響空間の種類に関する情報を、スクランブル音信号選択テーブルと照らし合わせ、所定のアルゴリズム、例えば、最も一致した項目の数が多い音信号や、過去の選択履歴の中から最近選択された音信号、あるいは使用頻度が最も高い音信号など設定条件に合致するスクランブル音信号を読み出す。前記所定のアルゴリズムは、利用者の要求に応じて任意に設定すればよい。

なお、このとき音響空間選択情報において、「住宅」が書き込まれていた場合には、ＣＰＵ１００は、マスキングサウンドとしてホワイトノイズの音信号を選択しても良い。なぜなら、一般に人の音から生成されたマスキングサウンドよりもホワイトノイズなどのランダムノイズから生成されたマスキングサウンドの方が、マスキング効果は低いものの不快感や違和感を引き起こす程度が低いため、居住性や快適性を優先する住宅では不快感や違和感が低いホワイトノイズによるマスキングが望まれるからである。また、「住宅」以外の場合でもホワイトノイズの音信号を優先することがあるのは言うまでもない。

ステップＳＣ１４０において、ＣＰＵ１００は、選択したスクランブル音信号またはホワイトノイズの音信号のいずれかを出力する。なお、出力されるスクランブル音信号の音量レベルは、使用者により音量レベル選択部５７０により入力された音量レベルに応じて最適な値に設定される。なお、該処理は割り込み処理として実行される。

本動作モードにおいては、音響空間２０Ａにおける音の特長や音響空間２０Ａの種類などの情報に基づいて、最も該音および音響空間２０Ａの音響特性に合致したスクランブル音信号が、ＲＯＭ２１０に格納された複数のスクランブル音信号またはホワイトノイズから選択される。この場合、ユーザは、ＲＯＭ２１０にどのような音信号が格納されているかについて知らなくても、簡便に最適なマスキングサウンドを生成させることができる。

（Ｃ；変形例）
以上、本発明の一実施形態について説明したが、かかる実施形態に以下に述べるような変形を加えても良いことは勿論である。また、以下に述べる変形を組み合わせて用いてもよい。

（１）上記実施形態においては、マスキングサウンド生成装置１０のＣＰＵ１００が本発明に特徴的な処理の多くを実行する場合について説明したが、それぞれの処理を行うハードウェアモジュールを設けて同様の処理を行わせるようにしても良い。

（２）上記実施形態においては、初期設定処理において、音信号に各種の処理（フレーム化処理、リバース処理、窓掛け処理、およびランダム化処理）を全て施す場合について説明した。しかし、上述した全ての処理を必ずしも行わなくても良く、それらの処理を組み合わせることにより言語としての意味が理解できない程度に音信号が改変されていれば良い。

（３）上記実施形態においては、スクランブル音信号選択テーブルにおいて、音信号に関する複数の情報（性別、年齢、言語、話速、フォルマント、周波数特性）について書き込む場合について説明した。しかし、音響特性分析処理において、話速、フォルマント、周波数特性の全てについて必ずしも分析する必要は無く、これら全ての項目について初期設定処理において書き込む必要もない。また、発音体属性情報の全てを書き込む必要は無い。ＣＰＵ１００は、書き込まれた項目の範囲内で最も一致の度合いが高いスクランブル音信号を選択するようにすれば良い。

（４）上記実施形態においては、音響特性分析処理の方法の一例について説明した。しかし、各音響特性の分析方法は、上述の方法に限定されるものではなく、同様の分析結果が得られる方法であればどのような方法を用いても良い。

（５）上記実施形態においては、動作モード１において、音響空間２０Ａで収音した音信号の音響特性を分析する処理について説明した。しかし、実際にマスキングサウンドが放音される空間は音響空間２０Ｂであり、両音響空間の間には壁などの音響特性を変化させる障害物即ち遮音構造体が存在する。従って、ＣＰＵ１００は、音響特性分析処理を行う前に、対象となる音信号に前記遮音構造体の遮音特性を模したフィルタリング処理を施して該音信号が壁を透過した場合の音響効果を付与し、その後音響特性分析処理を行うようにしても良い。その結果、生成されるマスキングサウンドは、音響空間２０Ｂのユーザに聞こえる騒音を模した音信号から生成されたものとなるため、より高いマスキング効果が期待できる。

（６）上記実施形態においては、マイクロホン３０とスピーカ４０を別々の音響空間に設ける場合について説明した。しかし、同じ音響空間にマイクロホン３０およびスピーカ４０を設置しても良い。例えば音響空間２０Ａにマイクロホン３０およびスピーカ４０を設置した場合、音響空間２０Ａのユーザの会話内容からマスキングサウンドが生成され、該マスキングサウンドは音響空間２０Ａにおいて放音されるため、音響空間２０Ｂには、会話内容とマスキングサウンドの両者が漏れ聞こえることになる。その結果、音響空間２０Ｂのユーザは、音響空間２０Ａのユーザの会話内容を理解することが困難になる。この場合、前記マイクロホン３０とスピーカ４０によりハウリングが発生しないような配置や信号処理を行うことは当然のことである。

（７）上記実施形態においては、マイクロホン３０およびスピーカ４０を別々の音響空間に設置する場合について説明した。しかし、同じ空間内にマイクロホン３０およびスピーカ４０を離して設置して、マイクロホン３０の付近のエリアで秘匿性の高い会話がなされ、スピーカ４０の付近のエリアのユーザにマスキングサウンドを放音することで該会話内容が聞こえないようにするようにしても良い。

（８）上記実施形態においては、音響空間２０Ａにマイクロホン３０を、音響空間２０Ｂにスピーカ４０を設置する場合について説明した。しかし、複数の音響空間、例えば音響空間２０Ａおよび２０Ｂのそれぞれにおいて、マイクロホン３０およびスピーカ４０の両者を設置するようにしてもよい。その場合、マスキングサウンド生成装置１０は入力手段を有し、ユーザは、秘匿性の高い会話を行う場合には入力手段を介してその旨を入力し、マスキングサウンド生成装置１０は、該入力がなされた音響空間においてはマイクロホン３０で音を収音し、他方の音響空間において生成されたマスキングサウンドを放音するように制御すれば良い。

（９）上記実施形態においては、ＣＰＵ１００は、音信号スクランブル処理において入力された音信号を相異なるフレーム長の３つの音信号に複製し、それぞれの音信号において相異なる音信号処理を施し、その後それらの音信号をミキシングしてマスキングサウンドを生成した。しかし、扱う音信号の系統数は３に限られるものではなく、１または２でも良いし４以上でも良いが、マスキングサウンドとしての効果は、系統数がより多いほど高い。

（１０）上記実施形態においては、ＣＰＵ１００は、音信号のフレーム化において、話速の平均値および時間的なばらつきである標準偏差σから、平均値、平均値＋σ、平均値−σの値を算出し、複製された音信号の各々のフレーム化処理に適用する場合に場合について説明した。しかし、利用される値は、平均値と平均値±σの値に限られるものではない。例えば、σに代えて標準誤差などとしても良いし、σに代えて予め定められた値を用いるとしても良い。
また、フレーム長選択テーブルにおいては、話速に対してフレーム長を３つ対応させておくようにし、ＣＰＵ１００は話速の平均値に対応する３つのフレーム長を読み出し、読み出されたフレーム長を用いて各々の音信号をフレームに分割するようにすれば良い。

（１１）上記実施形態においては、複製された音信号をそれぞれ異なるフレーム長で分割する場合について説明した。しかし、複数の複製された音信号を共通のフレーム長で分割するようにしても良い。その場合、ＣＰＵ１００は話速の平均値に対応するフレーム長を読み出し、読み出されたフレーム長を用いて各々の音信号をフレームに分割するようにすれば良い。

（１２）上記実施形態においては、ランダムノイズとしてホワイトノイズを用いる場合について説明した。しかし、ランダムノイズの種類は、ホワイトノイズに限定されず、例えばピンクノイズ（パワースペクトル密度が周波数に反比例する雑音）など他の音源でも良いし、空調から実際に発生する騒音や振動などから予め生成した音信号を用いるなどしても良い。

（１３）上記実施形態においては、既成の音信号をＲＯＭ２１０に書き込むために光ディスク再生装置を設け、光ディスクに書き込まれた音信号をＲＯＭ２１０に書き込む場合について説明した。しかし、外部から音信号を取り込むための装置は、光ディスク再生装置に限られるものではなく、例えばインターネットなどの通信網を介して音信号をサーバからダウンロードしたり、マスキングサウンド生成装置１０に外部機器との接続を仲介するＩ／Ｏ部を設けて、該Ｉ／Ｏ部に接続されたＦｌａｓｈＭｅｍｏｒｙなどから音信号をＲＯＭ２１０に移動したりしても良い。

（１４）上記実施形態においては、動作モード１および２が選択可能である場合について説明した。しかし、両方の動作モードに示した処理が実行可能である必要はなく、いずれか一方だけでも良い。

（１５）上記実施形態においては、初期設定処理において音信号スクランブル処理を施し、予めスクランブル音信号をＲＯＭ２１０に書き込んでおく場合について説明した。しかし、ＣＰＵ１００は、音信号スクランブル処理することなく受取った音信号をＲＯＭ２１０に格納し、マスキングサウンド生成処理の際に音信号スクランブル処理を行いながらマスキングサウンドを出力するようにしても良い。
また、光ディスクにスクランブルされた音信号が格納されている場合には、初期設定処理において音信号スクランブル処理を行わなくても良い。

（１６）上記実施形態においては、スクランブルされた音信号を複数生成し、それらの音信号をＲＯＭ２１０に格納し、マスキングサウンドを生成する際にそれらを選択して用いる旨説明した。従って、上記実施形態における「スクランブルされた複数の音信号の組み」を記憶した記憶媒体を作成し、他の音信号の再生装置において該記憶媒体から読み出された音信号を選択して出力するようにしても良い。

（１７）上記実施形態においては、動作モード１では、ＣＰＵ１００がスクランブル音信号選択テーブルを参照し、受取った音信号の音響特性に最も類似しているスクランブル音信号を選択する場合について説明した。また、動作モード２では、ＣＰＵ１００がスクランブル音信号選択テーブルを参照し、ユーザから入力された各種条件と最も一致度が高いスクランブル音信号を選択する場合について説明した。しかし、ＣＰＵ１００は、上記いずれの場合においても、スクランブル音信号選択テーブルにおいて、スクランブル音信号を選択するにあたり、最も一致度が高いものではなく、一致度が一定のレベルを超えるものの中から選択するなどしても良い。

（１８）上記実施形態においては、動作モード１において、音響特性分析処理の分析結果に基づいて、最も音響特性が類似したスクランブル音信号またはホワイトノイズの音信号が選択される場合について説明した。しかし、複数の音信号を同時に選択することができるようにしても良い。その場合、例えば動作モード１においては、操作部５００において、選択される音信号の数を設定するための入力部を設けると良い。そしてＣＰＵ１００は、最も音響特性が一致した順に、所定の数の音信号を選択するようにすれば良い。また、動作モード２において操作者により音信号が直接選択される場合には、音信号選択部５２０において押下された複数の選択肢と対応する複数の音信号が選択されるようにすればよい。以上のようにすれば、複数の音信号がマスキングサウンドとして重ねて出力されるため、効果的なマスキングがなされることが期待できる。

（１９）上記実施形態において、音響空間選択情報の内容に基づいて、出力されるマスキングサウンドに各種音響効果を付与しても良い。例えば音響空間選択情報が「ホール」である場合には、ＣＰＵ１００は、読み出されたスクランブル音信号またはホワイトノイズの音信号に対して残響効果を付与しても良い。なお、残響の付与方法としては、所定の時間遅延させた複数の音信号を重ね合わせる（ＦＩＲフィルタによる反射音の畳み込み処理）など、従来技術を適用可能である。また、「会議室」や「ホール」など、選択された音響空間の種類に応じて、残響時間や重ね合わせる音信号の数に差を設けるようにしても良い。
また、別の音響効果として反射音を畳み込む処理などにより音色の変換を施しても良い。会議室では、音が会議室の壁や机で反射したり室内で反響したりして、会議室独特の音色へと変換される。従って、音響空間選択情報が例えば「会議室」である場合には、ＣＰＵ１００は、読み出されたスクランブル音信号またはホワイトノイズの音信号の波形を調整して、該音信号を上記会議室特有の音色へ変換するなどしても良い。
以上の音響処理を施すことにより、更に違和感の少ないマスキングサウンドが生成される。

（２０）上記実施形態においては、音響空間選択部５６０における選択肢として、「会議室」、「住宅」、「ホール」、「執務室」など、部屋の種類が書き込まれている場合について説明した。しかし、例えば「音がよく反響する空間」、「無響室」などといった部屋の音響特性を示す選択肢を設けても良い。要は、音響特性選択情報は、音響空間の音響特性を示す情報であれば良い。

（２１）上記実施形態においては、動作モード２において、音響空間選択情報に基づいて音信号が選択される場合について説明した。しかし、そのような場合に限らず、いずれの動作モードで動作している場合においても音響空間選択部５６０への入力が可能であるようにしても良い。そのようにすれば、上記変形例（１９）にも説明したように、音響空間２０の音響特性に基づいて各種の音響処理をマスキングサウンドに対して施すことが可能となる。

（２２）上記実施形態においては、動作モード１において、音響特性分析処理の分析結果を、スクランブル音信号またはホワイトノイズの選択に用いる場合について説明した。その場合、音響特性分析処理において更に、音響空間２０Ａにおける残響時間や反射音特性（インパルス応答）などを測定し、該音響特性分析処理の分析結果に基づいて、読み出された音信号に対して各種の音響処理を施して出力するようにしても良い。例えば音響空間２０Ａは「ホール」である場合、ホールは一般に残響時間が非常に長いことから、読み出された音信号に対して残響処理を施すなどしても良い。

（２３）上記実施形態においては、動作モード２において、条件設定情報が入力された場合には該条件設定情報に基づいて音信号を読み出して出力する場合について説明した。その場合、読み出した音信号に対し、条件設定情報に基づいて各種音響処理を施しても良い。例えば、性別選択情報が「男性」である場合には、音信号をイコライジングして周波数の低い周波数成分を強調して「男性」の声を模した音信号に変換するようにするなどしても良い。また、年齢選択情報が「小人」である場合には、音信号をイコライジングして周波数の高い周波数成分を強調して「小人」の声を模した音信号に変換するなどしても良い。

マスキングサウンド生成装置１０が設けられた音響空間２０の構成を示した図である。マスキングサウンド生成装置１０の構成を示したブロック図である。操作部５００の外観を示した図である。フレーム長選択テーブルの一例を示した図である。スクランブル音信号選択テーブルの一例を示した図である。初期設定処理の流れを示したフローチャートである。音信号スクランブル処理の流れを示したフローチャートである。音信号スクランブル処理における音信号の波形を示した図である。マスキングサウンド生成処理の流れを示したフローチャートである。

符号の説明

１…サウンドマスキングシステム、１０…マスキングサウンド生成装置、２０Ａ、２０Ｂ…音響空間、３０…マイクロホン、４０…スピーカ、１００…ＣＰＵ、２００…記憶部、２１０…ＲＯＭ、２２０…ＲＡＭ、３００…音声入力部、３１０…Ａ／Ｄコンバータ、３２０…入力端子、４００…音声出力部、４１０…Ｄ／Ａコンバータ、４２０…アンプ、４３０…出力端子、５００…操作部、５１０…動作モード選択部、５２０…音信号選択部、５３０…性別選択部、５４０…年齢選択部、５５０…言語選択部、５６０…音響空間選択部、５７０…音量レベル選択部、６００…光ディスク再生装置、７００…バス

Claims

話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段と、
収音した音の話速を含む音響特性を分析する音響特性分析手段と、
前記音響特性分析手段により分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段と
を具備し、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするマスキングサウンド生成装置。
話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段と、
マスキングされる音の音響特性に関する情報を、操作者から受取る受取手段と、
前記受取手段により受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段と
を具備し、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするマスキングサウンド生成装置。
話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶する記憶手段と、
前記記憶手段に記憶されたスクランブル音信号のいずれかを、操作者から指定する指示信号を受取る受取手段と、
前記受取手段により受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力手段と
を具備し、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするマスキングサウンド生成装置。
音信号を受取り、話速が大きいほど一の区間の時間長を短くするように、当該音信号を所定時間長の区間に分割して再構成することにより、受取った音信号の時系列が変更されたスクランブル音信号を生成し、前記記憶手段に記憶させるスクランブル手段を具備する
ことを特徴とする請求項１ないし３のいずれか１項に記載のマスキングサウンド生成装置。
一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、
前記スクランブル手段により生成されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々の音響特性を記憶する記憶手段と、
収音した音の音響特性を分析する音響特性分析手段と、
前記音響特性分析手段により分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段と
を具備することを特徴とするマスキングサウンド生成装置。
一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、
前記スクランブル手段により生成されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々の音響特性を記憶する記憶手段と、
マスキングされる音の音響特性に関する情報を、操作者から受取る受取手段と、
前記受取手段により受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段と
を具備することを特徴とするマスキングサウンド生成装置。
一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、
前記スクランブル手段により生成されたスクランブル音信号を複数記憶する記憶手段と、
前記記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取手段と、
前記受取手段により受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力手段と
を具備することを特徴とするマスキングサウンド生成装置。
前記スクランブル手段は、一の音信号を一定長の前記所定時間長の区間に分割する
ことを特徴とする請求項５ないし７のいずれか１項に記載のマスキングサウンド生成装置。
前記スクランブル手段は、前記複数の音信号で異なる時間長の区間に分割する
ことを特徴とする請求項５ないし７のいずれか１項に記載のマスキングサウンド生成装置。
音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について音響空間の種類を含む音響特性を記憶し、更に、ランダムノイズの音信号を記憶する記憶手段と、
マスキングされる音が放音される音響空間の種類を含む音響特性に関する情報を、操作者から受取る受取手段と、
前記受取手段により受取られた情報が示す前記音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較して、前記スクランブル音信号又は前記ランダムノイズの音信号を決定し、前記記憶手段から該決定したスクランブル音信号又はランダムノイズの音信号を読出して出力する出力手段と
を具備することを特徴とするマスキングサウンド生成装置。
収音した音の話速を含む音響特性を分析する音響特性分析ステップと、
話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段から、前記音響特性分析ステップで分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップと
を具備し、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするマスキングサウンド生成方法。
マスキングされる音の音響特性に関する情報を、操作者から受取る受取ステップと、
話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段から、前記受取ステップで受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップと
を具備し、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするマスキングサウンド生成方法。
話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶する記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取ステップと、
前記受取ステップで受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力ステップと
を具備し、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするマスキングサウンド生成方法。
一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、
前記スクランブルステップで生成されたスクランブル音信号と、前記スクランブル音信号の音響特性を記憶手段に記憶させるステップと、
収音した音の音響特性を分析する音響特性分析ステップと、
前記音響特性分析ステップで分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップと
を具備することを特徴とするマスキングサウンド生成方法。
一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、
前記スクランブルステップで生成されたスクランブル音信号と、前記スクランブル音信号の音響特性を記憶手段に記憶させるステップと、
マスキングされる音の音響特性に関する情報を操作者から受取る受取ステップと、
前記受取ステップで受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップと
を具備することを特徴とするマスキングサウンド生成方法。
一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、
前記スクランブルステップで生成されたスクランブル音信号を記憶手段に記憶させるステップと、
前記記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取ステップと、
前記受取ステップで受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力ステップと
を具備することを特徴とするマスキングサウンド生成方法。
マスキングされる音が放音される音響空間の種類を含む音響特性に関する情報を、操作者から受取る受取ステップと、
音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について音響空間の種類を含む音響特性を記憶し、更に、ランダムノイズの音信号を記憶する記憶手段から、前記受取ステップで受取られた情報が示す前記音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較して、前記スクランブル音信号又は前記ランダムノイズの音信号を決定し、前記記憶手段から該決定したスクランブル音信号又はランダムノイズの音信号を読出して出力する出力ステップと
を具備することを特徴とするマスキングサウンド生成方法。
コンピュータに、
収音した音の話速を含む音響特性を分析する音響特性分析ステップと、
話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段から、前記音響特性分析ステップで分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップと
を実行させ、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするプログラム。
コンピュータに、
マスキングされる音の音響特性に関する情報を、操作者から受取る受取ステップと、
話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段から、前記受取ステップで受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップと
を実行させ、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするプログラム。
コンピュータに、
話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶する記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取ステップと、
前記受取ステップで受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力ステップと
を実行させ、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするプログラム。
コンピュータに、
一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、
前記スクランブルステップで生成されたスクランブル音信号と、前記スクランブル音信号の音響特性を記憶手段に記憶させるステップと、
収音した音の音響特性を分析する音響特性分析ステップと、
前記音響特性分析ステップで分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップと
を実行させるためのプログラム。
コンピュータに、
一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、
前記スクランブルステップで生成されたスクランブル音信号と、前記スクランブル音信号の音響特性を記憶手段に記憶させるステップと、
マスキングされる音の音響特性に関する情報を操作者から受取る受取ステップと、
前記受取ステップで受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップと
を実行させるためのプログラム。
コンピュータに、
一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、
前記スクランブルステップで生成されたスクランブル音信号を記憶手段に記憶させるステップと、
前記記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取ステップと、
前記受取ステップで受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力ステップと
を実行させるためのプログラム。
コンピュータに、
マスキングされる音が放音される音響空間の種類を含む音響特性に関する情報を、操作者から受取る受取ステップと、
音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について音響空間の種類を含む音響特性を記憶し、更に、ランダムノイズの音信号を記憶する記憶手段から、前記受取ステップで受取られた情報が示す前記音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較して、前記スクランブル音信号又は前記ランダムノイズの音信号を決定し、前記記憶手段から該決定したスクランブル音信号又はランダムノイズの音信号を読出して出力する出力ステップと
を実行させるためのプログラム。