JP5103974B2 - マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム - Google Patents

マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム Download PDF

Info

Publication number
JP5103974B2
JP5103974B2 JP2007075283A JP2007075283A JP5103974B2 JP 5103974 B2 JP5103974 B2 JP 5103974B2 JP 2007075283 A JP2007075283 A JP 2007075283A JP 2007075283 A JP2007075283 A JP 2007075283A JP 5103974 B2 JP5103974 B2 JP 5103974B2
Authority
JP
Japan
Prior art keywords
sound signal
sound
scrambled
signal
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007075283A
Other languages
English (en)
Other versions
JP2008233672A (ja
Inventor
敦子 伊藤
寧 清水
晃 三木
雅人 秦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007075283A priority Critical patent/JP5103974B2/ja
Publication of JP2008233672A publication Critical patent/JP2008233672A/ja
Application granted granted Critical
Publication of JP5103974B2 publication Critical patent/JP5103974B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/82Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection
    • H04K3/825Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection by jamming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K1/00Secret communication
    • H04K1/06Secret communication by transmitting the information or elements thereof at unnatural speeds or in jumbled order or backwards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K1/00Secret communication
    • H04K1/10Secret communication by using two signals transmitted simultaneously or successively
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K2203/00Jamming of communication; Countermeasures
    • H04K2203/10Jamming or countermeasure used for a particular application
    • H04K2203/12Jamming or countermeasure used for a particular application for acoustic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/45Jamming having variable characteristics characterized by including monitoring of the target or target signal, e.g. in reactive jammers or follower jammers for example by means of an alternation of jamming phases and monitoring phases, called "look-through mode"

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

本発明は、マスキングサウンドを生成する技術に関する。
ある音(対象音)が聞こえているときに対象音に近い音響特性(周波数特性など)を持つ別の音(マスキングサウンド)が存在すると、その対象音が聞こえにくくなるという現象が一般に知られており、マスキング効果と呼ばれている。マスキング効果は、人間の聴覚特性に根ざしたものであり、マスキングサウンドの周波数が対象音の周波数に近いほど、また、マスキングサウンドの音量レベルが対象音の音量レベルに対して相対的に高いほど顕著になることが知られている。
このマスキング効果を利用した音響技術は、従来種々提案されており、その例として特許文献1ないし2に開示された技術が挙げられる。特許文献1には、取得した音を所定のフレームに分割し、各フレーム内で時間的に逆に再生することにより音を無意味化しマスキングサウンドを生成する技術が開示されている。また、特許文献2には、音信号を複数のセグメントに分割し、この複数のセグメントの順序を入れ替えることにより音を無意味化しマスキングサウンドを生成する技術が開示されている。
特願2006−242344号公報 特表2005−554061号公報
特許文献1および2に記載の技術によれば、収音した音からリアルタイムにマスキングサウンドを生成するため、音信号の処理に高いパフォーマンスが要求されていた。
本発明は上記の問題に鑑みてなされたものであり、マスキングしたい音の音響特性をマスキングするのに最も適した音響特性を有するマスキングサウンドを生成する技術を提供することにある。
本発明に係るマスキングサウンド生成装置は、話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段と、音し音の話速を含む音響特性を分析する音響特性分析手段と、前記音響特性分析手段により分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段とを具備し、音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速としたことを特徴とする
また、本発明に係るマスキングサウンド生成装置は、話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段と、スキングされる音の音響特性に関する情報を、操作者から受取る受取手段と、前記受取手段により受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段とを具備し、音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速としたことを特徴とする。
また、本発明に係るマスキングサウンド生成装置は、話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶する記憶手段と、記記憶手段に記憶されたスクランブル音信号のいずれかを、操作者から指定する指示信号を受取る受取手段と、前記受取手段により受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力手段とを具備し、音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速としたことを特徴とする。
本発明に係るマスキングサウンド生成装置は、上記の構成において、音信号を受取り、話速が大きいほど一の区間の時間長を短くするように、当該音信号を所定時間長の区間に分割して再構成することにより、受取った音信号の時系列が変更されたスクランブル音信号を生成し、前記記憶手段に記憶させるスクランブル手段を具備することを特徴とする。
また、本発明に係るマスキングサウンド生成装置は一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、前記スクランブル手段により生成されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々の音響特性を記憶する記憶手段と、収音した音の音響特性を分析する音響特性分析手段と、前記音響特性分析手段により分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段とを具備することを特徴とする。
また、本発明に係るマスキングサウンド生成装置は、一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、前記スクランブル手段により生成されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々の音響特性を記憶する記憶手段と、マスキングされる音の音響特性に関する情報を、操作者から受取る受取手段と、前記受取手段により受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段とを具備することを特徴とする。
また、本発明に係るマスキングサウンド生成装置は、一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、前記スクランブル手段により生成されたスクランブル音信号を複数記憶する記憶手段と、前記記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取手段と、前記受取手段により受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力手段とを具備することを特徴とする。
本発明に係るマスキングサウンド生成装置は、上記の構成において、前記スクランブル手段は、一の音信号を一定長の前記所定時間長の区間に分割してもよい。
また、本発明に係るマスキングサウンド生成装置は、上記の構成において、前記スクランブル手段は、前記複数の音信号で異なる時間長の区間に分割してもよい。
また、本発明に係るマスキングサウンド生成装置は、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について音響空間の種類を含む音響特性を記憶し、更に、ランダムノイズの音信号を記憶する記憶手段と、マスキングされる音が放音される音響空間の種類を含む音響特性に関する情報を、操作者から受取る受取手段と、前記受取手段により受取られた情報が示す前記音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較して、前記スクランブル音信号又は前記ランダムノイズの音信号を決定し、前記記憶手段から該決定したスクランブル音信号又はランダムノイズの音信号を読出して出力する出力手段とを具備することを特徴とする。
本発明は、マスキングサウンド生成装置のほか、マスキングサウンド生成方法、プログラムとしても概念することが可能である。
本発明に係るマスキングサウンド生成装置、マスキングサウンド生成方法およびプログラにより、マスキングしたい音の音響特性をマスキングするのに最も適した音響特性を有するマスキングサウンドを生成することができる。
以下、本発明の実施形態について図面を用いて説明する。
(A;構成)
(A−1;全体構成)
図1は、本発明に係るサウンドマスキングシステム1の構成を示す図である。図1に示すように、音響空間20Aには、マイクロホン30が天井から吊り下げられて設置されている。音響空間20Bにはスピーカ40が天井から吊り下げられて設置されている。
マイクロホン30は、音響空間20Aにおける音(人間の話し声や空調の動作音などの可聴音)を収音してアナログの音信号に変換し、マスキングサウンド生成装置10へ出力する。
スピーカ40は、マスキングサウンド生成装置10からアナログの音信号を受取り、音響空間20Bにおいて再生する。
(A−2;マスキングサウンド生成装置10の構成)
次に、マスキングサウンド生成装置10の構成について図2を参照して説明する。マスキングサウンド生成装置10は、マスキングサウンド(マスカー)を表す音信号を生成する。該マスキングサウンドは音響空間20Bにおいて放音され、音響空間20Aにおける会話の内容を他の音響空間20Bのユーザに聞きとられにくくしたり(セキュリティーの保護)、他の音響空間20Bのユーザが音響空間20Aから漏れ聞こえる音により会話が妨害されたり作業の集中を乱されたりしないようにする(騒音のマスキング)。
CPU(Central Processing Unit)100は、記憶部200に格納されている各種プログラムを実行することにより本発明に特徴的な動作を行ったり、マスキングサウンド生成装置10の各部の動作を制御したりする。
音声入力部300は、アナログ/デジタル(以下、「A/D」と略記する)コンバータ310と入力端子320とを有する。入力端子320にはマイクロホン30が接続されており、マイクロホン30により生成された音信号は、入力端子320を介してA/Dコンバータ310へ入力される。A/Dコンバータ310は、マイクロホン30から受取った音信号にA/D変換を施し、デジタルの音信号をCPU100へ出力する。
音声出力部400は、D/Aコンバータ410とアンプ420と出力端子430とを有する。D/Aコンバータ410は、CPU100から受取った音信号に対して、D/A変換を施すことによってアナログの音信号へ変換する。アンプ420は、D/Aコンバータ410から受取った音信号の振幅(マスタボリューム)を最適な値に調整して、マスキング効果が最大となるように制御する。音信号の増幅率は、後述する操作部500からの信号に基づいてCPU100により制御される。出力端子430はスピーカ40と接続されており、音信号はスピーカ40へ出力され、音響空間20Bにおいてマスキングサウンド(マスカー)として放音される。
操作部500はタッチパネルを有する入力装置であり、マスキングサウンド生成装置10のユーザにより該タッチパネルが押下された場合に、操作内容をCPU100へと出力する。図3は、操作部500の外観を示した図である。操作部500のタッチパネルは、動作モード選択部510、音信号選択部520、性別選択部530、年齢選択部540、言語選択部550、音響空間選択部560、および音量レベル選択部570を有する。
ユーザによりタッチパネル上の特定の領域が押下されると、該領域は同図に例示されているように選択された領域が網掛け表示となると共に、対応する項目が選択されたことを示す信号がCPU100に出力される。なお、音量レベル選択部570においては、大きい数字ほど大きい音量レベルが対応付けられている。以下ではそれらの信号を、それぞれ動作モード選択情報、音信号選択情報、性別選択情報、年齢選択情報、言語選択情報、音響空間選択情報、および音量レベル選択情報と呼ぶ。また、性別選択情報、年齢選択情報、言語選択情報、および音響空間選択情報を条件設定情報と総称する。
再び図2において、光ディスク再生装置600は、装着された光ディスクから記録されているデータを読み出す装置である。読み出されたデータは、CPU100へ出力される。
記憶部200は、ROM(Read Only Memory)210およびRAM(Random Access Memory)220を有する。
ROM210は、本発明に特徴的な機能をCPU100に実行させるための制御プログラムやデータが格納されている。
RAM220は、各種の記憶領域を有し、CPU100によってワークエリアとして利用される。また、RAM220は、音声入力部300から受取った各音信号を所定時間分記憶可能な音信号記憶領域を有する。前記所定時間は長時間であるほど好ましく、マスキングサウンド生成装置としては高い性能を有するが、ハード資源の容量や性能により上限値があるため、本実施形態においては一例として180秒に設定した。また、RAM220は、マスキングサウンドの音信号生成に係るパラメータなど各種のデータを記憶する。
以上に説明した各ユニットは、バス700を介して接続されており、互いにデータの授受を行う。
(A−3;制御プログラムおよびデータ)
次に、ROM210に記憶されている制御プログラムについて説明する。CPU100は、制御プログラムを実行することにより、以下に説明する処理を始めとする各種の処理を実行する。
まず、「音響特性分析処理」について説明する。音響特性分析処理とは、入力された音信号を所定長の区間に分割し、生成された各断片(以下、フレームと呼ぶ)における話速、フォルマント、および周波数特性を分析する処理である。
まず、話速の分析について説明する。本実施形態において、「話速(発話速度)」とは、音声が発せられるときの速さであり、単位時間あたりの音節数などで定義される。ここで音節とは、一定の声の長さを持つ音素(例えば母音)のまとまり、または一定の声の長さを持つ音素の前および/または後に非常に短い音素(例えば子音)を従えるまとまりを意味する。音響特性分析処理において、CPU100は、受取った音信号の各フレームについて、音信号の時間軸波形を生成し、当該時間軸波形のエンベロープ(包絡線)にスムージング処理を施す。そしてスムージング処理された波形から各音節を構成する波形のピーク位置をフレームごとに検出して、ピーク数を計測する。その後、当該ピーク数を音節数とし、音節数をフレーム長で除した単位時間あたりの音節数を話速として算出する。ここでピークとは、各音節を構成する波形においてレベルが最大の箇所を言う。話速はフレーム毎に異なるが、CPU100は、上記フレームごとにその時点での話速を分析し、それらの値の平均値、該平均値のフレーム間のばらつきである標準偏差σを算出し出力する。
次に、フォルマントの分析について説明する。フォルマントとは、音声のスペクトル包絡上で特定の周波数領域にエネルギーが集中して生じる山である。これは、人間の声などが固有に持っている周波数スペクトル(倍音成分の分布パターン)であり、声の高さや強さに依存しないという特徴を有する。フォルマントを分析することで、話者の性別、年齢、使用言語などを読み取ることができることが知られている。音響特性分析処理において、CPU100は、受取った音信号の各フレームにおける波形をフーリエ変換する。そしてCPU100は、フーリエ変換により得られた振幅スペクトルの対数を求め、それをフーリエ逆変換して各フレームのスペクトル包絡を生成する。そしてCPU100は、得られたスペクトル包絡の低い周波数から第1フォルマントの周波数および第2フォルマントの周波数、第3フォルマントの周波数を抽出する。なお、本実施形態においては、第1ないし第3フォルマントの周波数を抽出するが、そのうちいずれか1つまたは2つ、または第4フォルマント以降について分析しても良い。
次に、周波数特性の分析について説明する。CPU100は、受取った音信号をフレームごとに読み出し、フーリエ変換により各フレームの周波数領域のスペクトルデータを生成する。生成されたスペクトルデータからは、音信号が表す音のピッチなどを読み取ることが出来る。
以上が、音響特性分析処理である。
次に、音信号の「リバース処理」について説明する。リバース処理において、CPU100は、受取った音信号の各フレームを一旦時間軸領域の信号に変換する。そして、該音信号の各フレームを時間軸において逆から読み出し、各音信号を新たな音信号へ変換する。本処理は、すなわち元の音信号が生成された順序とは逆の時間的順序で古いデータから読み出して新たな音信号を生成する処理である。このリバース処理により生成された音信号からは、処理前の音信号に含まれていた内容を理解することはできない。
次に、音信号の各フレームの「窓掛け処理」について説明する。窓掛け処理とは、内容が連続していないフレーム同士を接続する場合に、その音がスムーズに移行するように接続部分の波形を変換する処理である。
具体的には、CPU100は、例えば三角関数などからなる「整形関数」を各フレームの音信号に乗算することにより、各フレームの頭部では滑らかに立ち上がるように、そして各フレームの尾部では滑らかに立ち下がるように整形する。音響処理により連続した音信号が複数のフレームに分割され、元の音信号と異なる順序で接続された場合には、その接続部分においてクリックノイズが発生することがあるが、この窓掛け処理により該ノイズは除去される。
次に、ROM210に記憶されているデータについて説明する。
まず、「フレーム長選択テーブル」について説明する。図4は、フレーム長選択テーブルの1例を示した図である。フレーム長選択テーブルにおいては、上述した話速の範囲に対してフレーム長が対応付けられている。例えば、話速7.5以上12.5未満〔秒−1〕に対して、フレーム長の値0.10〔秒〕が対応付けられている。ここで、1フレーム長は、話速が各話速の範囲の中間の値であるときの1音節の時間と同程度に設定した。すなわち、話速10〔秒−1〕では1音節の発話速度は0.10秒であり、話速10〔秒−1〕が含まれる話速7.5以上12.5未満の範囲に対応するフレーム長をこの1音節の発話時間(0.10秒)に設定した。これは、1フレーム長が1音節より極端に短い時間の場合には、1音節が複数フレームに分割され、各フレームをリバース再生しても元の音節として認識されるおそれがあり、1フレーム長が1音節より極端に長い時間の場合には、各フレームをランダムに再構成しても1フレーム内の各音節がそのまま認識されるおそれがあるからである。
次に、「スクランブル音信号」について説明する。スクランブル音信号とは、人間の音声をスクランブル(無意味化または理解不能化)した音信号である。具体的には、人間の音声を収音して対応する波形データを生成し、所定時間(例えば100ミリ秒)ごとに複数のフレームに分割し、それらを元の音声とは異なる順序で組み合わせて新たに生成した音信号である。本実施形態においては、複数のスクランブル音信号(スクランブル音信号1、2、3…)が、後述する初期設定処理においてROM210に格納される。なお、人間は、このスクランブル音信号から言語としての意味を理解することはできない。
また、ROM210には、人の音声の音信号以外に、広帯域ノイズの一例としてホワイトノイズの音信号も記憶されている。なお、ホワイトノイズとは、測定周波数帯域において一様なパワースペクトル密度を有する雑音である。
次に、「スクランブル音信号選択テーブル」について説明する。図5に示すように、スクランブル音信号選択テーブルにおいては、ROM210に格納されたスクランブル音信号の各々を特定可能なスクランブル音信号番号に対して、その音の発音体属性情報、および音響特性情報が書き込まれている。発音体属性情報には、そのスクランブル音信号の元となった音声を発音した人の性別、年齢、言語、および名前が含まれる。例えば、スクランブル音信号1は、30歳の日本人男性である「Aさん」により吹き込まれた音声から生成されたものである。音響特性情報には、該スクランブル音信号の話速、フォルマント、および周波数特性に関するデータが含まれる。なお、フォルマント、および周波数特性の項目には、フォルマント、および周波数特性のデータを一意に識別するためのファイル名が書き込まれており、データは別途ROM210に書き込まれている。
(B;動作)
次に、本実施形態の動作について説明する。
(B−1;初期設定処理)
CPU100は、マスキングサウンドを生成の前に初期設定処理を行う。図6は、初期設定処理におけるCPU100が行う処理の流れを示したフローチャートである。
まず、ステップSA100において、CPU100は音信号を受信する。ここで、CPU100が音信号を受信する方法は2つある。1つは、ユーザがマイクロホン30を介して音声を吹き込み、CPU100は、音声入力部300を介して音信号を受取る方法である。もう1つの方法は、音信号が書き込まれた光ディスクから光ディスク再生装置600により音信号を読み出す方法である。この場合、光ディスクとしては、例えば既製品として販売されている光ディスクでもよいし、ユーザが予め音信号を光ディスクに書き込んだものでも良い。
ユーザは、上記いずれかの方法で音信号を入力し終えると、該音信号に関する発音体属性情報(該音声を発音した人の性別、年齢、言語、および名前)について図示せぬ入力手段を介して入力する。CPU100は、受取った音信号と発音体属性情報とを、相互に関連付けて一旦RAM220に書き込む。
本動作例においては、前者の方法すなわちマイクロホン30を介して音声を入力する方法と、後者の方法すなわち光ディスクなどの記憶媒体から音信号を読み出す方法を併用する。前者の方法で入力される音信号は、以下の通りである。スクランブル音信号1および2の元となる音信号として、それぞれ30歳の日本人男性である「Aさん」、25歳の日本人女性である「Bさん」の発音を表す音信号が入力される。また、スクランブル音信号3の元となる音信号として、平均年齢25歳の日本人の男女5人からなる「Cグループ(5人)」の発音を表す音信号が入力される。
また、後者の方法で入力される音信号は以下の通りである。スクランブル音信号4の元となる音信号として、10歳の日本人の男児の発音を表す音信号が入力される。また、スクランブル音信号5の元となる音信号として、30歳のイギリス人男性の音から生成された音信号が入力される。
なお、入力すべき音信号は、各ユーザが音響空間20Aを利用する頻度、および音響空間20Aにおいて使用される言語の種類を参考にして選択すれば良い。例えば、音響空間20Aが、「Aさん」や「Bさん」や「Cグループ」により頻繁に利用されたり、頻繁に英語による会議が行われるような場合には、上述のようにそれら頻繁に利用する人の音声や使用言語の音信号を入力しておくと良い。
次に、ステップSA110において、CPU100は、音響特性分析処理を行う。具体的には、CPU100は、RAM220に書き込まれた各音信号において、話速、フォルマント、および周波数特性を分析し、その分析結果である音響特性情報を各分析対象となった音信号と関連付けて一旦RAM220に書き込む。
ステップSA120において、CPU100は、ROM210に格納されたスクランブル音信号選択テーブルの更新を行う。具体的には、CPU100は、各音信号に関する発音体属性情報と音響特性とをRAM220から読み出し、スクランブル音信号選択テーブルに書き込む。その際、図5に示すように、スクランブル音信号1、2、3、4、および5の元となる音信号に関する発音体属性情報と音響特性は、それぞれスクランブル音信号1、2、3、4、および5の欄に書き込む。
ステップSA130において、CPU100は、音信号スクランブル処理を行う。図7は、音信号スクランブル処理の流れを示すフローチャートである。また、図8は、音信号スクランブル処理に伴う音信号の波形を示した図である。
図7のステップSB100において、CPU100は、RAM220に書き込まれた音信号を複製する。本動作例においては、CPU100は、音信号を3つに複製し、複製された音信号をRAM220に書き込む。なお、以下ではこれらの音信号を音信号A、B、およびCと呼ぶ。以下に説明するステップSB110ないしステップSB150は、音信号A、B、およびCのそれぞれについて行われ、それらの音信号は互いに異なる音信号へと変換される。以下の処理は、3つの音信号について同時に実行しても良いし、順次実行しても良い。
ステップSB110において、CPU100は、音信号のフレーム化を以下のように行う。すなわち、CPU100は、当該音信号の話速に関する情報をRAM220から読み出す。そしてCPU100は、ROM210に記憶されているフレーム長選択テーブルにおいて、平均値、平均値+σ、平均値−σの値に対応付けられたフレーム長を読み出し、RAM220に書き込まれた音信号A、B、およびCを読み出したそれぞれのフレーム長で分割し、分割した結果生成されたフレームをRAM220に書き込む。なお、図8の(a)―A、(a)―B、および(a)―Cには、音信号A、B、およびCが異なるフレーム長で分割された状況が示されている。
ステップSB120において、CPU100は、RAM220に書き込まれた音信号のフレームの各々について、上述したリバース処理を行う。リバース処理がなされた結果、音信号A、B、およびCの各フレームは、それぞれ図8の(b)―A、(b)―B、および(b)―Cに示されるようにフレーム内で時間的に逆に倒置されたデータに変換される。
ステップSB130において、各フレームには窓掛け処理が行われる。その結果、各フレームの頭部および尾部に対応する部分の波形が整形される。
ステップSB140において、CPU100は、各音信号についてその複数のフレームの順序をランダムに並べ替える(図8(c)参照)。
ステップSB150において、CPU100は、並べ替えられたフレームの音信号をつなぎ合わせ、新たな音信号を生成する。
ステップSB160において、CPU100は、ステップSB110ないし150においてそれぞれ別個に処理がなされた音信号A、B、およびCをミキシング処理し、スクランブル音信号を生成する(図8(d)参照)。
以上の処理により生成されたスクランブル音信号は、以下のような特徴を持つ。すなわち、生成されるスクランブル音信号においては、元の音信号の音量レベルの変動幅が小さくなり、平均的な音量レベルに収束する。なぜならば、元の音信号は短いフレームで分割されそれらのフレームはランダムに順序が並べ替えられているだけでなく、そのような処理がなされた複数の音信号が重ねあわされているからである。このため、スクランブル音信号の音量レベルは略一定に保たれており、元の音信号の音量レベルの変動によるマスキング効果の不安定さが低減される。
また、音信号を分割するフレーム長は話速に応じて適切に設定されるため、元の音に含まれていた音素は適切に分割されており、高いマスキング効果を有する。また、音素の分割やフレーム内のリバース処理により音の無意味化が十分になされており、ユーザのプライバシーやセキュリティーは保護される。また、各フレームのつなぎ目においては窓掛け処理がなされていることから、生成されたスクランブル音信号は滑らかにつながった音信号となる。
再び図6において、CPU100は、ステップSA140において、生成されたスクランブル音信号をROM210に書き込む。
また、CPU100は、音信号選択部520の各選択肢の右横に、スクランブル音信号選択テーブルにおいて該番号のスクランブル音信号に関連付けられた「名前」を表示する。
なお、ROM210には、ホワイトノイズを表す音信号も予め格納されている。従って、初期設定処理を終えた段階で、ROM210には、マスキングサウンドの元となる音信号として、スクランブル音信号とホワイトノイズの音信号が格納された状態となる。
(B−2;マスキングサウンド生成処理)
次に、マスキングサウンド生成処理について説明する。図9は、マスキングサウンド生成処理の流れを示したフローチャートである。
マスキングサウンド生成装置10のユーザは、マスキングサウンド生成処理を実行させるにあたり、操作部500の動作モード選択部510を操作し、1または2のいずれかの動作モードを選択する。操作部500は、選択された動作モードを示す動作モード情報をCPU100に出力する。以下では、ユーザによりそれぞれの動作モードが選択された場合のマスキングサウンド生成処理について説明する。
(B−2−1;動作モード1)
本動作モードは、音響空間20Aにおける音の音響特性に基づいて、マスキングサウンドを生成する上で適切なスクランブル音信号が自動的に選択されるモードである。
ステップSC100において、CPU100は、動作モード情報を受信する。
ステップSC110において、CPU100は、受信した動作モード情報が1であるか否かを判断する。本動作モードにおいては、動作モード情報は「1」であるから、ステップSC110の判断結果は“Yes”となり、ステップSC120の処理が行われる。
ステップSC120において、CPU100は、音響空間20Aにおける音を表す音信号を受取り、該音信号の音響特性分析処理を行う。本処理は、初期設定処理における音響特性分析処理と同様であるため、その説明を省略する。
ステップSC130において、CPU100は、ステップSC120の音響特性分析処理の結果に基づいて、ROM210に書き込まれたスクランブル音信号からいずれか1つ適切な音信号を読み出す。すなわち、CPU100は、ステップSC120における分析結果として得た音響特性(話速、フォルマント、および周波数特性)を、スクランブル音信号選択テーブルと照らし合わせ、最も音響特性が類似しているスクランブル音信号を選択する。
ステップSC140において、CPU100は、読み出した音信号(本実施形態では180秒のデータ)をマスキングサウンドとして出力する。なお、スクランブル音信号は、180秒間のデータであるから、出力を開始してから180秒後以降は、該スクランブル音信号をループ状に繰り返し出力する。なお、出力されるスクランブル音信号の音量レベルは、使用者により音量レベル選択部570により入力された音量レベルに応じて最適な値に設定され、該処理は割り込み処理として実行される。
本動作モードにおいては、音響空間20Aにおける音の音響特性を分析し、該音と最も音響特性が類似したスクランブル音信号がROM210に格納された多数のスクランブル音信号から選択される。上述のように、マスキングサウンドが対象音の音響特性と類似している場合に最も高いマスキング効果が発揮される。従って、出力されるマスキングサウンドは、音響空間20Aにおいて生じている音をマスキングするのに最も適した音響特性を有する。
(B−2−2;動作モード2)
次に、動作モード2おけるマスキングサウンド生成処理について説明する。本動作モードは、ユーザの指示内容に従ってマスキングサウンドが自動的に選択されるモードである。
ステップSA100において、CPU100は、動作モード情報を受信する。
ステップSA110において、CPU100は、受信した動作モード情報が1であるか否かを判断する。本動作モードにおいては、動作モード情報は「2」であるから、ステップSC110の判断結果は“No”となり、ステップSC150の処理が行われる。
さて、ユーザは、次のいずれかの方法によりマスキングサウンドの生成に係るパラメータを入力する。まず1つめの方法について説明する。ユーザは、操作部500の音信号選択部520の右横に表示されている「名前」を参照し、いずれかの音信号を直接指定する。例えば音響空間20Aにおいて「Aさん」が発声する場合には、ユーザは、音信号選択部520において「1」を押下し、英語による会議が行われる場合には、「5」を押下する。
もう1つの方法は、ユーザが、性別選択部530、年齢選択部540、言語選択部550、および音響空間選択部560の中から1つまたは複数について、特定の選択肢を選択する方法である。この場合、前記選択された情報に基づいてCPU100が音信号を選択する。例えば、「大人」の「男性」が「執務室」において「英語」で話をする場合には、図3に示すように性別選択部530、年齢選択部540、言語選択部550、および音響空間選択部560の各項目が選択される。
操作部500は、上述の操作内容に応じて音信号選択情報または条件設定情報を出力する。
ステップSC150において、CPU100は、操作部500から音信号選択情報または条件設定情報を受信する。
ステップSC130において、CPU100は、操作部500から受取った音信号選択情報または条件設定情報に基づいて音信号を選択する。すなわち、CPU100が音信号選択情報を受取った場合には、該音信号選択情報が表すスクランブル音信号をROM210から読み出してマスキングサウンドとして出力する。また、CPU100が条件設定情報を受信した場合には、該条件設定情報に書き込まれた性別、年齢、言語、そして音響空間の種類に関する情報を、スクランブル音信号選択テーブルと照らし合わせ、所定のアルゴリズム、例えば、最も一致した項目の数が多い音信号や、過去の選択履歴の中から最近選択された音信号、あるいは使用頻度が最も高い音信号など設定条件に合致するスクランブル音信号を読み出す。前記所定のアルゴリズムは、利用者の要求に応じて任意に設定すればよい。
なお、このとき音響空間選択情報において、「住宅」が書き込まれていた場合には、CPU100は、マスキングサウンドとしてホワイトノイズの音信号を選択しても良い。なぜなら、一般に人の音から生成されたマスキングサウンドよりもホワイトノイズなどのランダムノイズから生成されたマスキングサウンドの方が、マスキング効果は低いものの不快感や違和感を引き起こす程度が低いため、居住性や快適性を優先する住宅では不快感や違和感が低いホワイトノイズによるマスキングが望まれるからである。また、「住宅」以外の場合でもホワイトノイズの音信号を優先することがあるのは言うまでもない。
ステップSC140において、CPU100は、選択したスクランブル音信号またはホワイトノイズの音信号のいずれかを出力する。なお、出力されるスクランブル音信号の音量レベルは、使用者により音量レベル選択部570により入力された音量レベルに応じて最適な値に設定される。なお、該処理は割り込み処理として実行される。
本動作モードにおいては、音響空間20Aにおける音の特長や音響空間20Aの種類などの情報に基づいて、最も該音および音響空間20Aの音響特性に合致したスクランブル音信号が、ROM210に格納された複数のスクランブル音信号またはホワイトノイズから選択される。この場合、ユーザは、ROM210にどのような音信号が格納されているかについて知らなくても、簡便に最適なマスキングサウンドを生成させることができる。
(C;変形例)
以上、本発明の一実施形態について説明したが、かかる実施形態に以下に述べるような変形を加えても良いことは勿論である。また、以下に述べる変形を組み合わせて用いてもよい。
(1)上記実施形態においては、マスキングサウンド生成装置10のCPU100が本発明に特徴的な処理の多くを実行する場合について説明したが、それぞれの処理を行うハードウェアモジュールを設けて同様の処理を行わせるようにしても良い。
(2)上記実施形態においては、初期設定処理において、音信号に各種の処理(フレーム化処理、リバース処理、窓掛け処理、およびランダム化処理)を全て施す場合について説明した。しかし、上述した全ての処理を必ずしも行わなくても良く、それらの処理を組み合わせることにより言語としての意味が理解できない程度に音信号が改変されていれば良い。
(3)上記実施形態においては、スクランブル音信号選択テーブルにおいて、音信号に関する複数の情報(性別、年齢、言語、話速、フォルマント、周波数特性)について書き込む場合について説明した。しかし、音響特性分析処理において、話速、フォルマント、周波数特性の全てについて必ずしも分析する必要は無く、これら全ての項目について初期設定処理において書き込む必要もない。また、発音体属性情報の全てを書き込む必要は無い。CPU100は、書き込まれた項目の範囲内で最も一致の度合いが高いスクランブル音信号を選択するようにすれば良い。
(4)上記実施形態においては、音響特性分析処理の方法の一例について説明した。しかし、各音響特性の分析方法は、上述の方法に限定されるものではなく、同様の分析結果が得られる方法であればどのような方法を用いても良い。
(5)上記実施形態においては、動作モード1において、音響空間20Aで収音した音信号の音響特性を分析する処理について説明した。しかし、実際にマスキングサウンドが放音される空間は音響空間20Bであり、両音響空間の間には壁などの音響特性を変化させる障害物即ち遮音構造体が存在する。従って、CPU100は、音響特性分析処理を行う前に、対象となる音信号に前記遮音構造体の遮音特性を模したフィルタリング処理を施して該音信号が壁を透過した場合の音響効果を付与し、その後音響特性分析処理を行うようにしても良い。その結果、生成されるマスキングサウンドは、音響空間20Bのユーザに聞こえる騒音を模した音信号から生成されたものとなるため、より高いマスキング効果が期待できる。
(6)上記実施形態においては、マイクロホン30とスピーカ40を別々の音響空間に設ける場合について説明した。しかし、同じ音響空間にマイクロホン30およびスピーカ40を設置しても良い。例えば音響空間20Aにマイクロホン30およびスピーカ40を設置した場合、音響空間20Aのユーザの会話内容からマスキングサウンドが生成され、該マスキングサウンドは音響空間20Aにおいて放音されるため、音響空間20Bには、会話内容とマスキングサウンドの両者が漏れ聞こえることになる。その結果、音響空間20Bのユーザは、音響空間20Aのユーザの会話内容を理解することが困難になる。この場合、前記マイクロホン30とスピーカ40によりハウリングが発生しないような配置や信号処理を行うことは当然のことである。
(7)上記実施形態においては、マイクロホン30およびスピーカ40を別々の音響空間に設置する場合について説明した。しかし、同じ空間内にマイクロホン30およびスピーカ40を離して設置して、マイクロホン30の付近のエリアで秘匿性の高い会話がなされ、スピーカ40の付近のエリアのユーザにマスキングサウンドを放音することで該会話内容が聞こえないようにするようにしても良い。
(8)上記実施形態においては、音響空間20Aにマイクロホン30を、音響空間20Bにスピーカ40を設置する場合について説明した。しかし、複数の音響空間、例えば音響空間20Aおよび20Bのそれぞれにおいて、マイクロホン30およびスピーカ40の両者を設置するようにしてもよい。その場合、マスキングサウンド生成装置10は入力手段を有し、ユーザは、秘匿性の高い会話を行う場合には入力手段を介してその旨を入力し、マスキングサウンド生成装置10は、該入力がなされた音響空間においてはマイクロホン30で音を収音し、他方の音響空間において生成されたマスキングサウンドを放音するように制御すれば良い。
(9)上記実施形態においては、CPU100は、音信号スクランブル処理において入力された音信号を相異なるフレーム長の3つの音信号に複製し、それぞれの音信号において相異なる音信号処理を施し、その後それらの音信号をミキシングしてマスキングサウンドを生成した。しかし、扱う音信号の系統数は3に限られるものではなく、1または2でも良いし4以上でも良いが、マスキングサウンドとしての効果は、系統数がより多いほど高い。
(10)上記実施形態においては、CPU100は、音信号のフレーム化において、話速の平均値および時間的なばらつきである標準偏差σから、平均値、平均値+σ、平均値−σの値を算出し、複製された音信号の各々のフレーム化処理に適用する場合に場合について説明した。しかし、利用される値は、平均値と平均値±σの値に限られるものではない。例えば、σに代えて標準誤差などとしても良いし、σに代えて予め定められた値を用いるとしても良い。
また、フレーム長選択テーブルにおいては、話速に対してフレーム長を3つ対応させておくようにし、CPU100は話速の平均値に対応する3つのフレーム長を読み出し、読み出されたフレーム長を用いて各々の音信号をフレームに分割するようにすれば良い。
(11)上記実施形態においては、複製された音信号をそれぞれ異なるフレーム長で分割する場合について説明した。しかし、複数の複製された音信号を共通のフレーム長で分割するようにしても良い。その場合、CPU100は話速の平均値に対応するフレーム長を読み出し、読み出されたフレーム長を用いて各々の音信号をフレームに分割するようにすれば良い。
(12)上記実施形態においては、ランダムノイズとしてホワイトノイズを用いる場合について説明した。しかし、ランダムノイズの種類は、ホワイトノイズに限定されず、例えばピンクノイズ(パワースペクトル密度が周波数に反比例する雑音)など他の音源でも良いし、空調から実際に発生する騒音や振動などから予め生成した音信号を用いるなどしても良い。
(13)上記実施形態においては、既成の音信号をROM210に書き込むために光ディスク再生装置を設け、光ディスクに書き込まれた音信号をROM210に書き込む場合について説明した。しかし、外部から音信号を取り込むための装置は、光ディスク再生装置に限られるものではなく、例えばインターネットなどの通信網を介して音信号をサーバからダウンロードしたり、マスキングサウンド生成装置10に外部機器との接続を仲介するI/O部を設けて、該I/O部に接続されたFlash Memoryなどから音信号をROM210に移動したりしても良い。
(14)上記実施形態においては、動作モード1および2が選択可能である場合について説明した。しかし、両方の動作モードに示した処理が実行可能である必要はなく、いずれか一方だけでも良い。
(15)上記実施形態においては、初期設定処理において音信号スクランブル処理を施し、予めスクランブル音信号をROM210に書き込んでおく場合について説明した。しかし、CPU100は、音信号スクランブル処理することなく受取った音信号をROM210に格納し、マスキングサウンド生成処理の際に音信号スクランブル処理を行いながらマスキングサウンドを出力するようにしても良い。
また、光ディスクにスクランブルされた音信号が格納されている場合には、初期設定処理において音信号スクランブル処理を行わなくても良い。
(16)上記実施形態においては、スクランブルされた音信号を複数生成し、それらの音信号をROM210に格納し、マスキングサウンドを生成する際にそれらを選択して用いる旨説明した。従って、上記実施形態における「スクランブルされた複数の音信号の組み」を記憶した記憶媒体を作成し、他の音信号の再生装置において該記憶媒体から読み出された音信号を選択して出力するようにしても良い。
(17)上記実施形態においては、動作モード1では、CPU100がスクランブル音信号選択テーブルを参照し、受取った音信号の音響特性に最も類似しているスクランブル音信号を選択する場合について説明した。また、動作モード2では、CPU100がスクランブル音信号選択テーブルを参照し、ユーザから入力された各種条件と最も一致度が高いスクランブル音信号を選択する場合について説明した。しかし、CPU100は、上記いずれの場合においても、スクランブル音信号選択テーブルにおいて、スクランブル音信号を選択するにあたり、最も一致度が高いものではなく、一致度が一定のレベルを超えるものの中から選択するなどしても良い。
(18)上記実施形態においては、動作モード1において、音響特性分析処理の分析結果に基づいて、最も音響特性が類似したスクランブル音信号またはホワイトノイズの音信号が選択される場合について説明した。しかし、複数の音信号を同時に選択することができるようにしても良い。その場合、例えば動作モード1においては、操作部500において、選択される音信号の数を設定するための入力部を設けると良い。そしてCPU100は、最も音響特性が一致した順に、所定の数の音信号を選択するようにすれば良い。また、動作モード2において操作者により音信号が直接選択される場合には、音信号選択部520において押下された複数の選択肢と対応する複数の音信号が選択されるようにすればよい。以上のようにすれば、複数の音信号がマスキングサウンドとして重ねて出力されるため、効果的なマスキングがなされることが期待できる。
(19)上記実施形態において、音響空間選択情報の内容に基づいて、出力されるマスキングサウンドに各種音響効果を付与しても良い。例えば音響空間選択情報が「ホール」である場合には、CPU100は、読み出されたスクランブル音信号またはホワイトノイズの音信号に対して残響効果を付与しても良い。なお、残響の付与方法としては、所定の時間遅延させた複数の音信号を重ね合わせる(FIRフィルタによる反射音の畳み込み処理)など、従来技術を適用可能である。また、「会議室」や「ホール」など、選択された音響空間の種類に応じて、残響時間や重ね合わせる音信号の数に差を設けるようにしても良い。
また、別の音響効果として反射音を畳み込む処理などにより音色の変換を施しても良い。会議室では、音が会議室の壁や机で反射したり室内で反響したりして、会議室独特の音色へと変換される。従って、音響空間選択情報が例えば「会議室」である場合には、CPU100は、読み出されたスクランブル音信号またはホワイトノイズの音信号の波形を調整して、該音信号を上記会議室特有の音色へ変換するなどしても良い。
以上の音響処理を施すことにより、更に違和感の少ないマスキングサウンドが生成される。
(20)上記実施形態においては、音響空間選択部560における選択肢として、「会議室」、「住宅」、「ホール」、「執務室」など、部屋の種類が書き込まれている場合について説明した。しかし、例えば「音がよく反響する空間」、「無響室」などといった部屋の音響特性を示す選択肢を設けても良い。要は、音響特性選択情報は、音響空間の音響特性を示す情報であれば良い。
(21)上記実施形態においては、動作モード2において、音響空間選択情報に基づいて音信号が選択される場合について説明した。しかし、そのような場合に限らず、いずれの動作モードで動作している場合においても音響空間選択部560への入力が可能であるようにしても良い。そのようにすれば、上記変形例(19)にも説明したように、音響空間20の音響特性に基づいて各種の音響処理をマスキングサウンドに対して施すことが可能となる。
(22)上記実施形態においては、動作モード1において、音響特性分析処理の分析結果を、スクランブル音信号またはホワイトノイズの選択に用いる場合について説明した。その場合、音響特性分析処理において更に、音響空間20Aにおける残響時間や反射音特性(インパルス応答)などを測定し、該音響特性分析処理の分析結果に基づいて、読み出された音信号に対して各種の音響処理を施して出力するようにしても良い。例えば音響空間20Aは「ホール」である場合、ホールは一般に残響時間が非常に長いことから、読み出された音信号に対して残響処理を施すなどしても良い。
(23)上記実施形態においては、動作モード2において、条件設定情報が入力された場合には該条件設定情報に基づいて音信号を読み出して出力する場合について説明した。その場合、読み出した音信号に対し、条件設定情報に基づいて各種音響処理を施しても良い。例えば、性別選択情報が「男性」である場合には、音信号をイコライジングして周波数の低い周波数成分を強調して「男性」の声を模した音信号に変換するようにするなどしても良い。また、年齢選択情報が「小人」である場合には、音信号をイコライジングして周波数の高い周波数成分を強調して「小人」の声を模した音信号に変換するなどしても良い。
マスキングサウンド生成装置10が設けられた音響空間20の構成を示した図である。 マスキングサウンド生成装置10の構成を示したブロック図である。 操作部500の外観を示した図である。 フレーム長選択テーブルの一例を示した図である。 スクランブル音信号選択テーブルの一例を示した図である。 初期設定処理の流れを示したフローチャートである。 音信号スクランブル処理の流れを示したフローチャートである。 音信号スクランブル処理における音信号の波形を示した図である。 マスキングサウンド生成処理の流れを示したフローチャートである。
符号の説明
1…サウンドマスキングシステム、10…マスキングサウンド生成装置、20A、20B…音響空間、30…マイクロホン、40…スピーカ、100…CPU、200…記憶部、210…ROM、220…RAM、300…音声入力部、310…A/Dコンバータ、320…入力端子、400…音声出力部、410…D/Aコンバータ、420…アンプ、430…出力端子、500…操作部、510…動作モード選択部、520…音信号選択部、530…性別選択部、540…年齢選択部、550…言語選択部、560…音響空間選択部、570…音量レベル選択部、600…光ディスク再生装置、700…バス

Claims (24)

  1. 話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段と、
    音し音の話速を含む音響特性を分析する音響特性分析手段と、
    前記音響特性分析手段により分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段と
    を具備し、
    音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
    ことを特徴とするマスキングサウンド生成装置。
  2. 話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段と、
    スキングされる音の音響特性に関する情報を、操作者から受取る受取手段と、
    前記受取手段により受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段と
    を具備し、
    音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
    ことを特徴とするマスキングサウンド生成装置。
  3. 話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶する記憶手段と、
    記記憶手段に記憶されたスクランブル音信号のいずれかを、操作者から指定する指示信号を受取る受取手段と、
    前記受取手段により受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力手段と
    を具備し、
    音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
    ことを特徴とするマスキングサウンド生成装置。
  4. 音信号を受取り、話速が大きいほど一の区間の時間長を短くするように、当該音信号を所定時間長の区間に分割して再構成することにより、受取った音信号の時系列が変更されたスクランブル音信号を生成し、前記記憶手段に記憶させるスクランブル手段を具備す
    ことを特徴とする請求項1ないし3のいずれか1項に記載のマスキングサウンド生成装置。
  5. 一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、
    前記スクランブル手段により生成されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々の音響特性を記憶する記憶手段と、
    収音した音の音響特性を分析する音響特性分析手段と、
    前記音響特性分析手段により分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段と
    を具備することを特徴とするマスキングサウンド生成装置。
  6. 一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、
    前記スクランブル手段により生成されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々の音響特性を記憶する記憶手段と、
    マスキングされる音の音響特性に関する情報を、操作者から受取る受取手段と、
    前記受取手段により受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段と
    を具備することを特徴とするマスキングサウンド生成装置。
  7. 一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、
    前記スクランブル手段により生成されたスクランブル音信号を複数記憶する記憶手段と、
    前記記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取手段と、
    前記受取手段により受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力手段と
    を具備することを特徴とするマスキングサウンド生成装置。
  8. 前記スクランブル手段は、一の音信号を一定長の前記所定時間長の区間に分割する
    ことを特徴とする請求項5ないし7のいずれか1項に記載のマスキングサウンド生成装置。
  9. 前記スクランブル手段は、前記複数の音信号で異なる時間長の区間に分割する
    ことを特徴とする請求項5ないし7のいずれか1項に記載のマスキングサウンド生成装置。
  10. 音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について音響空間の種類を含む音響特性を記憶し、更に、ランダムノイズの音信号を記憶する記憶手段と、
    マスキングされる音が放音される音響空間の種類を含む音響特性に関する情報を、操作者から受取る受取手段と、
    前記受取手段により受取られた情報が示す前記音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較して、前記スクランブル音信号又は前記ランダムノイズの音信号を決定し、前記記憶手段から該決定したスクランブル音信号又はランダムノイズの音信号を読出して出力する出力手段と
    を具備することを特徴とするマスキングサウンド生成装置。
  11. 音し音の話速を含む音響特性を分析する音響特性分析ステップと、
    話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段から、前記音響特性分析ステップで分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップ
    を具備し、
    音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
    ことを特徴とするマスキングサウンド生成方法。
  12. スキングされる音の音響特性に関する情報を、操作者から受取る受取ステップと、
    話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段から、前記受取ステップで受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップ
    を具備し、
    音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
    ことを特徴とするマスキングサウンド生成方法。
  13. 話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶する記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取ステップと、
    前記受取ステップで受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力ステップ
    を具備し、
    音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
    ことを特徴とするマスキングサウンド生成方法。
  14. 一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、
    前記スクランブルステップで生成されたスクランブル音信号と、前記スクランブル音信号の音響特性を記憶手段に記憶させるステップと、
    収音した音の音響特性を分析する音響特性分析ステップと、
    前記音響特性分析ステップで分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップと
    を具備することを特徴とするマスキングサウンド生成方法。
  15. 一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、
    前記スクランブルステップで生成されたスクランブル音信号と、前記スクランブル音信号の音響特性を記憶手段に記憶させるステップと、
    マスキングされる音の音響特性に関する情報を操作者から受取る受取ステップと、
    前記受取ステップで受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップと
    を具備することを特徴とするマスキングサウンド生成方法。
  16. 一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、
    前記スクランブルステップで生成されたスクランブル音信号を記憶手段に記憶させるステップと、
    前記記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取ステップと、
    前記受取ステップで受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力ステップと
    を具備することを特徴とするマスキングサウンド生成方法。
  17. マスキングされる音が放音される音響空間の種類を含む音響特性に関する情報を、操作者から受取る受取ステップと、
    音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について音響空間の種類を含む音響特性を記憶し、更に、ランダムノイズの音信号を記憶する記憶手段から、前記受取ステップで受取られた情報が示す前記音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較して、前記スクランブル音信号又は前記ランダムノイズの音信号を決定し、前記記憶手段から該決定したスクランブル音信号又はランダムノイズの音信号を読出して出力する出力ステップと
    を具備することを特徴とするマスキングサウンド生成方法。
  18. ンピュータ
    音し音の話速を含む音響特性を分析する音響特性分析ステップと、
    話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段から、前記音響特性分析ステップで分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップ
    を実行させ、
    音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
    ことを特徴とするプログラム。
  19. ンピュータ
    スキングされる音の音響特性に関する情報を、操作者から受取る受取ステップと、
    話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段から、前記受取ステップで受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップ
    を実行させ、
    音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
    ことを特徴とするプログラム。
  20. ンピュータ
    話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶する記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取ステップと、
    前記受取ステップで受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力ステップ
    を実行させ、
    音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
    ことを特徴とするプログラム。
  21. コンピュータに、
    一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、
    前記スクランブルステップで生成されたスクランブル音信号と、前記スクランブル音信号の音響特性を記憶手段に記憶させるステップと、
    収音した音の音響特性を分析する音響特性分析ステップと、
    前記音響特性分析ステップで分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップと
    を実行させるためのプログラム。
  22. コンピュータに、
    一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、
    前記スクランブルステップで生成されたスクランブル音信号と、前記スクランブル音信号の音響特性を記憶手段に記憶させるステップと、
    マスキングされる音の音響特性に関する情報を操作者から受取る受取ステップと、
    前記受取ステップで受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップと
    を実行させるためのプログラム。
  23. コンピュータに、
    一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、
    前記スクランブルステップで生成されたスクランブル音信号を記憶手段に記憶させるステップと、
    前記記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取ステップと、
    前記受取ステップで受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力ステップと
    を実行させるためのプログラム。
  24. コンピュータに、
    マスキングされる音が放音される音響空間の種類を含む音響特性に関する情報を、操作者から受取る受取ステップと、
    音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について音響空間の種類を含む音響特性を記憶し、更に、ランダムノイズの音信号を記憶する記憶手段から、前記受取ステップで受取られた情報が示す前記音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較して、前記スクランブル音信号又は前記ランダムノイズの音信号を決定し、前記記憶手段から該決定したスクランブル音信号又はランダムノイズの音信号を読出して出力する出力ステップと
    を実行させるためのプログラム。
JP2007075283A 2007-03-22 2007-03-22 マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム Expired - Fee Related JP5103974B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007075283A JP5103974B2 (ja) 2007-03-22 2007-03-22 マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007075283A JP5103974B2 (ja) 2007-03-22 2007-03-22 マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2008233672A JP2008233672A (ja) 2008-10-02
JP5103974B2 true JP5103974B2 (ja) 2012-12-19

Family

ID=39906501

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007075283A Expired - Fee Related JP5103974B2 (ja) 2007-03-22 2007-03-22 マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5103974B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016138605A1 (zh) * 2015-03-03 2016-09-09 山东省计算中心(国家超级计算济南中心) 一种用于保护汉语语音私密度的掩蔽信号的生成方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5644122B2 (ja) * 2010-01-26 2014-12-24 ヤマハ株式会社 マスカ音生成装置
EP2367169A3 (en) 2010-01-26 2014-11-26 Yamaha Corporation Masker sound generation apparatus and program
JP5682115B2 (ja) * 2010-01-26 2015-03-11 ヤマハ株式会社 サウンドマスキングを行うための装置およびプログラム
JP5489778B2 (ja) * 2010-02-25 2014-05-14 キヤノン株式会社 情報処理装置およびその処理方法
JP5126281B2 (ja) * 2010-04-27 2013-01-23 ソニー株式会社 楽曲再生装置
JP5849411B2 (ja) * 2010-09-28 2016-01-27 ヤマハ株式会社 マスカ音出力装置
JP2012113130A (ja) * 2010-11-25 2012-06-14 Yamaha Corp サウンドマスキング装置
JP5648485B2 (ja) * 2011-01-06 2015-01-07 大日本印刷株式会社 秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム
JP5929786B2 (ja) * 2013-03-07 2016-06-08 ソニー株式会社 信号処理装置、信号処理方法及び記憶媒体
JP6349112B2 (ja) * 2013-03-11 2018-06-27 学校法人上智学院 サウンドマスキング装置、方法及びプログラム
JP5761259B2 (ja) * 2013-06-24 2015-08-12 ヤマハ株式会社 会話漏洩防止装置
US10499151B2 (en) 2015-05-15 2019-12-03 Nureva, Inc. System and method for embedding additional information in a sound mask noise signal
CN115512683B (zh) * 2022-09-21 2024-05-24 中国人民解放军61623部队 语音处理方法、装置、计算机设备和存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH055334A (ja) * 1991-04-22 1993-01-14 Daiken Trade & Ind Co Ltd マスキングパーテイシヨン
JPH06308977A (ja) * 1993-04-22 1994-11-04 Matsushita Electric Works Ltd 防音間仕切り
US7143028B2 (en) * 2002-07-24 2006-11-28 Applied Minds, Inc. Method and system for masking speech
JP4223277B2 (ja) * 2002-12-26 2009-02-12 株式会社第一興商 キーワード検索により所定曲数以下に絞り込まれた複数楽曲の一部を連続再生させながら希望曲を選出可能な選曲装置、選曲用プログラム
JP4336552B2 (ja) * 2003-09-11 2009-09-30 グローリー株式会社 マスキング装置
JP2005283804A (ja) * 2004-03-29 2005-10-13 Daiichikosho Co Ltd 電子目次本機能付きカラオケリモコン装置
JP4734627B2 (ja) * 2005-03-22 2011-07-27 国立大学法人山口大学 スピーチプライバシー保護装置
JP2007017840A (ja) * 2005-07-11 2007-01-25 Nissan Motor Co Ltd 音声認証装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016138605A1 (zh) * 2015-03-03 2016-09-09 山东省计算中心(国家超级计算济南中心) 一种用于保护汉语语音私密度的掩蔽信号的生成方法

Also Published As

Publication number Publication date
JP2008233672A (ja) 2008-10-02

Similar Documents

Publication Publication Date Title
JP5103974B2 (ja) マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム
JP4245060B2 (ja) サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム
Saitou et al. Speech-to-singing synthesis: Converting speaking voices to singing voices by controlling acoustic features unique to singing voices
JP5103973B2 (ja) サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム
Raitio et al. Analysis of HMM-Based Lombard Speech Synthesis.
JP2004522186A (ja) 音声合成器の音声固有化
JP2000511651A (ja) 記録されたオーディオ信号の非均一的時間スケール変更
KR20130121173A (ko) 시맨틱 오디오 트랙 믹서
CN105957515A (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
US11727949B2 (en) Methods and apparatus for reducing stuttering
JPWO2004049304A1 (ja) 音声合成方法および音声合成装置
JP2006251375A (ja) 音声処理装置およびプログラム
JP2010014913A (ja) 声質変換音声生成装置および声質変換音声生成システム
JP4564416B2 (ja) 音声合成装置および音声合成プログラム
JP6681264B2 (ja) 音声加工装置、及びプログラム
JP5707944B2 (ja) 快音化データ生成装置、快音化データ生成方法、快音化装置、快音化方法及びプログラム
US20040054524A1 (en) Speech transformation system and apparatus
JP5648485B2 (ja) 秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム
JP5741175B2 (ja) 秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム
Le Roux et al. Single channel speech and background segregation through harmonic-temporal clustering
JP3241582B2 (ja) 韻律制御装置及び方法
JP5644268B2 (ja) 秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム
Lutsenko et al. Research on a voice changed by distortion
JP4267954B2 (ja) 概周期信号生成方法、装置、それを用いた音声合成方法、装置、音声合成プログラムおよびその記録媒体
Schwär et al. A Dataset of Larynx Microphone Recordings for Singing Voice Reconstruction.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120917

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees