JP2006267396A

JP2006267396A - 特定の音声を選択分離する方法および動的音声フィルタ

Info

Publication number: JP2006267396A
Application number: JP2005083905A
Authority: JP
Inventors: Hidetoshi Miike; 秀敏三池; Atsushi Cho; 篤志長; Junsaku Okamoto; 淳作岡本; Takumi Komada; 匠駒田
Original assignee: Yamaguchi University NUC
Current assignee: Yamaguchi University NUC
Priority date: 2005-03-23
Filing date: 2005-03-23
Publication date: 2006-10-05

Abstract

【課題】ノイズを含む混成音声から特定の音声を選択的に通過させ、特定の音声を認識し易くすること、またそのための時間的に変化する動的音声フィルタを提供すること。
【解決手段】入力音声信号を二分し、音声データベース手段に格納された複数の音声のパワーデータから選択されたものを用いてノイズを発生させ、発生したノイズを入力音声信号に付加し、入力音声信号にノイズが付加された音声信号を第１の帯域通過フィルタ手段により周波数帯域毎に分割し、これを正規化した信号からパワーの時間変化信号を算出し、算出されたパワーの時間変化信号に対して非線形反応素子において非線形反応を生ぜしめ、非線形反応に際して発火を示した周波数帯域と音声のパワーデータとを比較し、両者の誤差が小さくなるように付加すべきノイズをノイズコントローラにより操作し、非線形反応において発火を示した周波数帯域に対応する他方の入力音声信号のみを合成して出力するようにする。
【選択図】図３

Description

本発明は、ノイズを含む混成音声から特定の音声を選択的に通過させる方法及びそのための動的音声フィルタに関し、音声認識装置、補聴器、電話機等に適用されるものである。

音声情報を利用することは音声認識、音声合成等の種々の分野でなされているが、利用する音声がノイズ環境下のものである場合には、音声にノイズが付随するため、音声情報のみを利用するのに制約が生じ、そのままでは利用できないことにもなる。
ノイズ環境下の音声を利用するに際し従来行われている手法として、入力音声信号から帯域通過フィルタによりノイズを除去するものがある。しかしながら、この場合、ノイズが音声信号に対してそれほど小さくない場合には、必要とする音声もノイズとともに除去されてしまうことになり、音声情報を利用できなくなることがある。

最近では、ノイズ環境下での音声を利用するために、
音声情報に含まれる各音源の方向、距離の推定（音源定位）
各音源の特徴の違い（音声とその他のノイズ）の分析
というような面からのアプローチがなされているが、いまだ有効な手法として確立されてはいない。
特許文献に示されたものとして、次のようなものがある。
特開平４−２２７３３８号公報特開２００２−２０４１７５号公報

特許文献１は、雑音を含む混成信号を帯域分割し、各チャンネル毎の信号についてケプストラム分析等により音声帯域を分析し、検出された音声帯域情報に基づいて音声信号帯域を雑音信号帯域に対して相対的に強調して帯域合成する音声信号処理装置について開示している。
特許文献２は、劣化音声パワースペクトルと推定雑音パワースペクトルから重み付き劣化音声パワースペクトルを計算し、ＳＮ比に応じて補正された補正抑圧係数を計算し、それらにより歪みと雑音が少ない強調音声を得ることを開示している。

これら開示された技術では、音声信号帯域を雑音信号帯域に対して相対的に強調して帯域合成し、あるいはＳＮ比に応じて補正された補正抑圧係数を計算し強調音声を得るようにしており、十分なノイズ除去の特性が得られず、ノイズを含む混合音声から特定の音声を選択分離することができなかった。

従来技術は、ノイズ帯域に対して音声信号帯域を相対的に強調し、あるいはノイズを抑圧するということでノイズを除去しようとするものであり、ノイズの除去特性は十分ではなく、混合音声から特定の音声を選択分離することはできないものであり、ノイズを含む混成音声から特定の音声を選択的に通過させること、またそのための動的音声フィルタが求められていた。

本発明は、前述のような課題を解決するべくなしたものであり、特定の音声を選択分離する方法として、入力音声信号を二分し、複数の音声のパワーデータから選択されたものを用いてノイズを発生させ、該発生したノイズを前記二分された入力音声信号の一方に付加し、該入力音声信号にノイズが付加された音声信号を周波数帯域毎に分割するとともに、前記二分された入力音声信号の他方をそのまま同じ周波数帯域毎に分割し、前記ノイズが付加されて周波数帯域毎に分割された音声信号を正規化し、該正規化された音声信号からパワーの時間変化信号を算出し、該算出されたパワーの時間変化信号に対して非線形反応を生ぜしめて発火・非発火に応じて１または０の透過率を示す信号を生成させ、該生成された信号が非線形反応に際して発火を示した周波数帯域と前記音声のパワーデータとを比較し、両者の誤差が小さくなるように付加すべきノイズを操作し、前記非線形反応において出力信号が発火を示した周波数帯域に対応する前記他方の周波数帯域毎に分割された入力音声信号のみを合成して出力するようにしてものである。

また、本発明は、動的音声フィルタとして、入力音声信号を二分する分岐部と、複数の音声のパワーデータを格納した音声データベース手段と、該音声データベース手段における音声のパワーデータから選択されたものを用いてノイズ発生を操作するノイズコントローラと、該ノイズコントローラの操作によりノイズを発生し前記二分された入力音声信号の一方に付加するノイズ発生手段と、ノイズを付加された音声信号を周波数帯域毎に分割する第１の帯域通過フィルタ手段と、該帯域通過フィルタ手段により分割された周波数帯域毎の音声信号を正規化するための正規化手段と、該正規化手段により正規化された音声信号からパワーの時間変化信号を算出するパワー演算手段と、該パワー演算手段で算出されたパワーの時間変化信号に応じた非線形反応を周波数帯域毎に行う複数の非成形反応素子からなる非線形反応素子群と、前記二分された入力音声信号の他方を周波数帯域毎に分割する第２の帯域通過フィルタ手段と、該第２の帯域通過フィルタ手段により周波数帯域毎に分割された音声信号をゲート手段を介して合成して出力する音声合成手段とを備えてなり、該非線形反応素子群の各非線形反応素子は周波数帯域毎のパワーの時間変化信号に応じて発火・非発火を示す信号を出力し、前記ノイズコントローラは前記非線形反応素子群の各非線形反応素子が発火を示す信号を出力した周波数帯域と前記音声データベースに格納された音声のパワーデータとを比較して誤差が小さくなるように前記ノイズ発生手段によるノイズの発生を操作し、前記音声合成手段は周波数帯域ごとの信号のうち発火を示した周波数帯域の音声信号のみを選択し合成して出力するようにしたものである。
課すべきノイズの強度を入力音声信号の平均音量に対して０〜＋５ｄＢとなるように設定するのがよい。

入力音声信号にノイズが付加された音声信号を周波数帯域毎に分割する帯域通過フィルタは、低域で周波数分解能が高く、高域で周波数分解能が低くなるようにするのがよい。
非線形反応素子は、前記分割された周波数帯域の各々についての活性因子濃度ｕ_ｎと抑制因子濃度ｖ_ｎとの時間発展を表す式

（ただし、ｇ_ｎは帯域通過フィルタを通過し正規化された音声信号の強度、ａ，ｂ，εは定数）により規定される非線形反応素子を用いて行われるものであるのがよい。
また、非線形反応素子は、その入力値に応じて単安定系と双安定系とを切り換えられる系からなるのがよい。

本発明によれば、確率共鳴現象を実現するモデルによる非線形反応素子を用い、音声データベースをもとにコントロールしたノイズを付加することによって、ノイズを含む混成音声から特定の音声を選択的に通過させることができ、時間的に変化する動的音声フィルタを構成することができ、特定の音声を認識し易くすることが可能である。
（本発明の前提となる考え方）
本発明では、カクテルパーティ効果、確率共鳴現象に着目し、それに沿った形で特定の音声を選択的に通過させる方法及びそのための動的音声フィルタを実現するものであり、まずそれらについて概観し、またそれによるモデル化について説明する。

（１）カクテルパーティ効果
本発明では、ノイズ環境下での音声情報取得、音声認識を向上させるという課題に取り組むにあたり、人間の聴覚上のカクテルパーティ効果の現象に着目し、この現象のコンピュータ利用技術として実現を目指すという方向性から、ノイズ環境下での音声情報取得、音声認識の改善を計ることを基本にしている。カクテルパーティ効果は人間がノイズ環境下において注目する音声を集中して聞き取ることができるということであるが、この場合のノイズとは、ホワイトノイズに代表される一般的な雑音に限られず、注目する音声以外の音声は人の声を含めて全てノイズとなり、また注目する音声は必ずしも人の声に限られない。

カクテルパーティ効果に向けた取り組みとして、一つには二波形分離システムがある。これは、人間が音声を聴く際に、個々の物理的特徴の分離、群化が生じ、群化された物理的特徴から一連の流れを形成した上で聴き取っているという心理物理学的事象を考慮して形成されたシステムであり、聴覚特性を考慮したフィルタを基底関数とするウェーブレット分析系で入力波形を帯域ごとに分割し、瞬時振幅、瞬時位相を求めておき、各フィルタ内で信号の振幅と雑音の振幅、信号と雑音との位相差を推定し、信号と雑音それぞれに関係する振幅成分と位相成分を集め、逆ウェーブレット変換により信号と雑音の波形を推定する。この処理で同一周波数帯域に信号と雑音が存在していても分離が可能であり、スペクトル歪みが改善される。

カクテルパーティ効果の実現に向けた試みがなされているが、混入するノイズが別人の声である場合にはノイズの分離精度が悪化する。また音源定位によりノイズを分離しようとすると、マイクアレイ等の特殊な装置が必要となる。

（２）確率共鳴現象
本発明では、先行技術と同様にカクテルパーティ効果の実現を目指しているが、ノイズをいかに分離するかという立場を少しずらして、むしろノイズを利用して注目する音声の強調ができるのではないかという考え方からアプローチしている。この考え方は、最近明らかにされてきている確率共鳴現象が適用されるであろうという判断に基づいている。そこで、まず確率共鳴現象について概略的に説明する。

ある情報に対して信号とノイズとの強度比（ＳＮ比）をあげるのには信号の強度を大きくし、ノイズを抑制するという手順によるのか一般的であるが、一方、微弱な入力信号に対する非線形系の応答が適切な強度のノイズによって増強される（ＳＮ比が向上する）という現象が知られており、確率共鳴現象とよばれている。

あるシステムについて
ａ．複数の安定状態が散在する
ｂ．状態間の閾値が小さくなるような外部からの作用がある
ｃ．適正な強度のランダムノイズが加えられる
という３つの条件が満たされた時に、このシステムの応答が外部からの作用と共鳴しているようにみえる。そのためこの状態が確率共鳴と呼ばれる。ある信号が形成するポテンシャルがシステムにおける複数の状態間の閾値を常に超えないものとして、外部からの何らかの作用とともにランダムなノイズが加わることにより遷移閾値が下がりシステムの状態間遷移が生ずる。さらにノイズの強度が適切であれば信号に確率的に同期したものとなり、ある最適のノイズ強度においてＳＮ比が最大になる。確率共鳴現象は気候変動、化学反応、生体細胞等広い範囲に及ぶものであり、これまでに確率共鳴現象についての報告が多くなされている。

最初のものとしては、長期にわたる気候変動について、氷河期と間氷河期の移り変わりの要因は地球の回転運動に伴う揺らぎによって生じる日射量の変化にあり、気候変動の周期が地球の回転運動に伴う揺らぎの周期に対応することが判明し、これらを裏付けるものとして提唱されている。
化学反応のうち、ベルーゾフ・ジャボチンスキー（ＢＺ）反応は、反応基質、媒質、酸化剤、金属触媒などを混ぜ合わせて生じる酸化反応であるが、特にこの反応は酸化と還元を繰り返しながら酸化していくという振動化学反応であり、中間生成物の自己触媒的な過程とフィードバック機構が存在し、ＢＺ反応系に電流を加え、自励振動を制御し、電流がある閾値を超えると自励振動状態から興奮状態に転移すること、ＢＺ反応系に弱い周期摂動とノイズを加えて興奮状態におけるバーストの周期性がみられるということから、確率共鳴現象が生じていることがわかる。

生体に関し、ザリガニの扇状尾における有毛細胞及び神経節を含む部分にわずかな周期的振動とともにランダムな振動を与えた時に有毛細胞から微弱な信号が検出されたことから、ザリガニは水が弱い乱流ノイズでかき乱されている時の方が乱流ノイズが存在しない時より効率よく水の流れを検出するという確率共鳴現象的振舞いを示すものと考えられる。
人の感覚神経系について、知覚心理実験において、例えば低コントラスト画像に適度な強度のノイズを印加することにより画像の認識率が向上する例が示されている。

聴覚器官における確率共鳴現象について、例えば１０００Ｈｚと４０００Ｈｚの正弦波状音信号に対して、ある適度な強度のノイズを印加した時に可聴域値が最も低下するということが報告されており、聴覚における確率共鳴現象の存在を示唆している。この報告では、単一もしくは二種混合周波数成分音でのノイズ印加実験に限られている。

本発明者らは、この聴覚器官における確率共鳴現象について確認し、さらに広域周波数成分音である人の音声に対してのノイズ印加の影響について実験を行った。

（Ａ）単純音に対するホワイトノイズの影響について
１００Ｈｚ，１０００Ｈｚ，２５００Ｈｚの３種類の正弦波状音信号（基本刺激）のそれぞれに対して、基本刺激の音量の−３０ｄＢから＋５ｄＢまで、５ｄＢきざみで８種類のレベルのホワイトノイズを印加する。印加するノイズ比はノイズなしを含めて９種類であり、３種類の基本刺激に対して２７種類の刺激となる。正常な聴覚を持つ被検者に対して、２７種類の刺激をランダムに並べ、確実に聴取できないレベルの音量から１ｄＢずつ音量を上げながら与えていき、聴取できた時点（音量レベル）を確認する。結果として、０ｄＢよりさらに小さい強度のノイズを印加した時に、３種類の基本刺激ともノイズ無しよりも認識閾値が下がっている。

（Ｂ）意味音に対するホワイトノイズの影響について
広帯域周波数成分音である人の声を基本刺激とする。基本刺激は、「バナナ」というような３モーラで構成される単語１０種類とし、印加するホワイトノイズ比は、ノイズなしと、−６．０２ｄＢから１２．０４ｄＢまでの６種類との計７種類として、７０種類の刺激を（Ａ）の場合と同様に、各刺激いついて５回与える。結果として、ノイズ強度が−２．５ｄＢの時に最も認識率が向上し、それよりノイズ強度を上げると認識率が低くなった。

（Ｃ）意味音に対する周波数特性ノイズの影響について
基本刺激は（Ｂ）と同じで、ノイズを周波数特性ノイズとし、他の条件は（Ｂ）する。周波数特性ノイズとは、基本刺激の周波数特性を保ったまま位相をランダムに置き換え、ノイズ状に変化させたものである。結果として、周波数特性ノイズの強度を上げるにつれて認識率が低下した。

（Ｄ）生活環境音に対するホワイトノイズの影響について
人の声を含まない、生活環境音（蝉の声、鐘の音、水の流音等）に（Ａ）の場合同様にホワイトノイズを印加する。結果として、−０．２５ｄＢあたりで閾値が改善され、（Ｂ）の場合に近い傾向となる。
（Ａ）〜（Ｄ）から、音声の認識率の改善には、加えるノイズの種類が関係することが考えられる。

一方、人間の聴覚系において、蝸牛が音受容器として働き、受け取られた音が蝸牛の基部から先端部へ向かって伝搬し、その周波数成分の強さが神経の信号に変換されるという形で音声の認識がなされる。

（３）モデル化
本発明では、このような音声の認識に対するノイズの影響についての実験の結果と、人間の聴覚系とを考慮し、聴覚における確率共鳴現象をモデル化し、特定の音声を選択的に通過させるための動的音声フィルタを構成する。この聴覚における確率共鳴現象のモデルは、図１に示されるようなものであり、その基本的構成要素は、蝸牛を模擬した帯域通過フィルタと、それに繋がる聴覚神経を模擬した非線形反応素子である。このモデルに入力された音信号は、帯域通過フィルタによって複数のチャンネルに分解され、それぞれのチャンネルの信号は、ある正規化処理を施された後に非線形反応素子に入力される。ここでのチャンネルごとの信号の透過率を結果として出力し、最後に全チャンネルの結果として得られた信号を合成し、ある音声信号を出力する。ここでの出力は、実際に耳に入る音声ではなく、人間に聞こえている音声（頭の中の音声）を表すものと考えられる。

次に、このモデル化における各基本的構成要素の特徴について説明する。
ａ．帯域通過フィルタ
音声の聴取に際し、人間が蝸牛の部分で周波数分解を行うこと、その周波数分解能は、蝸牛の入口付近（高周波対応）で分解能が低く、奥の部分（低周波対応）で分解能が高い、というように場所により異なることがわかっている。これを踏まえて、本発明のモデルでは、低域で周波数分解能が高く、高域で周波数分解能が低くなるように帯域通過処理を行うことにし、

ただし、ｆ_ｎ（ｔ）：帯域通過フィルタを通過した後の音声信号
ｐ（ｔ）：帯域通過フィルタを通過する前の音声信号
ｃｆ_ｎ：帯域通過フィルタの中心周波数
Ｔ_ｎ：帯域通過フィルタの帯域幅
α ：定数
で表されるフラットトップ型の複数のフィルタからなるフィルタ群を用いる。
このフィルタは接近した線スペクトルを分離するのには向かないが、その線スペクトルの振幅を正しく求めるのに有効である。式（１）において、各フィルタ間の波数を一定とし、フィルタごとに式中のＴとｃｆが変化するようにして、蝸牛を模擬したフィルタの設計を行う。

ｂ．入力信号の正規化
帯域通過フィルタ群を通過した各チャンネルの信号を全波整流処理により正規化する。帯域通過フィルタ群を通過した信号はまだ音信号であり、信号としては正負の値があるが、必要なのは各時間における振幅の値であることから、信号の絶対値をとる。人間の感覚において、振幅は対数的に把握され、この振幅感度はいわゆるデシベル（ｄＢ）で表されることから、対数をとる処理を行い、最後にある短時間窓内における振幅の時間平均をとる。この時間平均をとるのは、振幅が同じでも高周波の方が最大振幅が現れる頻度が高く、その分だけ閾値を超え発火が起こりやすいためであり、全フィルタ内で最も低い周波数の半周期の時間窓における平均振幅を各時間に求め、その時間の振幅情報とする。正規化の式は

ただし、ｇ_ｎ（ｔ）：正規化後の周波数帯域毎に分割された音声信号の強度
ｆ_ｎ（ｔ）：正規化前の周波数帯域毎に分割された音声信号
Ｔ：最低周波数フィルタの中心周波数の半周期
β ：定数
のようになる。

ｃ．非線形反応素子
動的な非線形反応素子としては、神経軸策における興奮伝達系モデルとして提案されているＦＨＮ（Ｆｉｔｚ−Ｈｕｇｈ＆Ｎａｇｕｍｏ）モデルを用いるのが好適であると考えられ、本発明ではＦＨＮモデルをベースにする。
一般的なＦＨＮモデルは、反応機構を備えた独立な素子同士が拡散結合することによって一つのシステムを形成する反応拡散系についてのモデルであり、各素子は発火を促す活性因子と、その働きを抑える抑制因子を生成する機構を持っている。ＦＨＮモデルは、活性因子濃度ｕ、抑制因子濃度ｖの間の関係式（３）、（４）で特徴づけられるものである。

ここで、ｕ＝ｕ（ｔ）は活性因子濃度、ｖ＝ｖ（ｔ）は抑制因子濃度、Ｄ_ｕは活性因子の拡散係数、ａ，ｂ，εはそれぞれ定数である。
式（３）、（４）は各因子濃度の時間発展を表すものであり、式（３）の右辺第１項は拡散による因子の流入（拡散項）、他の項は素子が持つ反応機構による因子の生成量（反応項）を表す。式（３）の反応項は３次の非線形項を含むものである。神経系では刺激に対し反応しある興奮状態に達して「発火」状態になるが、式（３）はその非線形性により閾値を超えた場合の発火や不応期といった神経系の特徴を再現できると考えられる。各因子濃度ｕ（ｔ），ｖ（ｔ）は、非線形反応素子に加えられた音声の時間変化信号に対する時間変化する透過率を示す応答となる。

本発明では、この一般的なＦＨＮモデルの式（３）、（４）に項を付加し、分割された周波数帯域の各々についての活性因子濃度ｕ_ｎと抑制因子濃度ｖ_ｎとの時間発展を表す式（５）、（６）の形を考える。

ここで、Ｄ_ｖは抑制因子の拡散係数である。式（５）、（６）はそれぞれ一般的なＦＨＮモデルの式（３）の右辺にｇ_ｎを付加し、式（４）の右辺にＤ_ｖ∇^２ｖ_ｎを付加したものになっている。

他の素子と拡散結合を持たない独立した素子の振る舞いについてみると、式（５）、（６）から拡散項Ｄ_ｕ∇^２ｕ_ｎ，Ｄ_ｖ∇^２ｖ_ｎを除いて考え、さらに定常状態で時間発展が０となり、結局
ｕ_ｎ＝ｕ_ｎ（１−ｕ_ｎ）（ｕ_ｎ−ａ）・・・・・・・・・（７）
ｖ_ｎ＝ｕ_ｎ／ｂ・・・・・・・・・（８）
となる。式（７）が表す曲線と式（８）が表す直線との交点では両因子濃度の時間的発展がともに０となり、この交点は定常点と呼ばれ、パラメータａ，ｂによって決まる。０＜ａ≦１の場合に、このｕ_ｎ，ｖ_ｎの関係をグラフで示すと図２（ａ），（ｂ）のようになり、ヌルクラインと呼ばれる。図２（ａ）のように定常点が１つのシステムは単安定系であり、図２（ｂ）のように２つの定常点を持つシステムは双安定系である。刺激ｕ_０を与えた時の時間的発展の方向は、図２（ａ），（ｂ）の曲線上でのｄｕ_ｎ／ｄｔ，ｄｖ_ｎ／ｄｔの正負に応じたものになる。単安定系では素子に閾値ａ以上の大きさの刺激が加わると活性因子の濃度が増大（発火）し、やがて元の安定定常状態へと戻る。双安定系では素子に閾値ａ以上の大きさの刺激が加わると、右の定常状態へ、そうでない場合は左の定常状態へと遷移する。なお、図２（ｂ）で中間の交点は微小な刺激によって定常状態を脱する不安定定常点である。

素子が拡散結合して１つの集合体を形成すると、素子間で各因子の移動が生じる。抑制因子の拡散が活性因子の拡散を超えない程度の場合（Ｄ_ｕ≧Ｄ_ｖ）に、ある素子に閾値以上の大きさの刺激が与えられて発火を生じると、拡散の効果によって隣接する因子でも活性因子が増大する。この時閾値を超えれば、その素子も図２（ｃ）で左回り軌跡に沿って連鎖的に発火を生じる。一方、抑制因子の拡散が活性因子の拡散よりも十分に大きい（Ｄ_ｕ≪Ｄ_ｖ）という条件はチューリング条件と呼ばれ、この条件下では各素子の時間発展は図２（ｃ）の軌跡に従わなくなる。言い換えると、各素子は安定定常状態に収束せず、拡散係数に依存して空間的に各濃度分布が不均一なある状態で安定化する。

式（５）、（６）によるモデルでは、式（５）にｇ_ｎという要素が加わっており、このｇ_ｎに、帯域通過フィルタを通った後に正規化された信号が入力される。すると系自体が上下に振動する。式中のｕ_ｎを透過率として時間ステップ毎に出力する。出力の段階で実際にはｕ_ｎを［発火：１，非発火：０］と二値化する。これにより、素子が発火した場合には透過率が大きくなり、ひいてはその時間での信号がより入力のままに近い状態で透過することになる。また、式（５）、式（６）でｕ_ｎ，ｖ_ｎは多数の帯域に分解されたチャンネルに応じた分だけあり、条件によっては隣のチャンネルへ拡散の影響を与えることもできる。これにより、主要スペクトルの近隣周波数域における側抑制などの効果を実現することができる。

前述したａ〜ｃのような特徴を有する基本的構成要素を備えた、本発明によるノイズの除去を行うための動的音声フィルタについて図３を参照して説明する。図３の動的音声フィルタは、音声データベース手段１、ノイズコントローラ２、ノイズ発生手段３、ノイズ加算手段４、入力音声信号の分岐部５、第１及び第２の帯域通過フィルタ手段６，７、正規化手段群８、パワー演算手段群９、非線形反応素子群１０、ゲート手段１１、音声合成手段１２からなる。

音声データベース手段１はノイズの種類を決定するための音声のパワーデータを格納するもので、格納する音声のパワーデータとして、抽出したい音声の代表的なパワースペクトルを蓄積しておくのであり、ノイズや他のデータを含まない。音声データベース手段の作成に際しては、抽出したい特定の音声（人物の声、物音等）を録音し、必要に応じて処理可能な形に加工を施して、取り出し可能な形に蓄積する。第１及び第２の帯域通過フィルタ６，７はそれぞれモデル化について前述したように、フラットトップ型の複数のフィルタからなり、低域で周波数分解能が高く、高域で周波数分解能が低くなるようにしたものである。正規化手段群８の各正規化手段、非線形反応素子群１０の各非線形反応素子は、それぞれ分割された周波数帯域に対応して備えられ、やはりモデル化について前述した特性を有するものであり、非線形反応素子群１０の各非線形反応素子はＦＨＮモデルにより周波数帯域ごとに活性因子濃度ｕ_ｎ（ｔ）と抑制因子濃度ｖ_ｎ（ｔ）との時間発展を規定する条件を満たすものであり、入力信号に応じた反応を示し、発火・非発火に応じて［０，１］の二値化された出力を生ずる。

この動的音声フィルタでは、入力音声信号を帯域通過フィルタにより周波数帯域分割した後に選択されたノイズを印加し、非線形反応素子での反応において特定の周波数帯域の音声信号が発火作用を示し、発火を示した周波数帯域の音声信号のみを合成して出力することにより、特定の音声を選択的に通過させる。

入力音声信号は特定の人物の音声と、それ以外の人物の音声、他の物音、ノイズを含むものであるが、この入力音声信号を分岐部においてＡ、Ｂの２つに分けておく。動的音声フィルタに備えられた音声データベース1は、入力音声信号にノイズとして付加する音声パターン群を備えており、ノイズコントローラ２はこの音声のパワーデータのうちからノイズとして付加する音声のパワーデータを選択し、ノイズ発生手段３によりノイズを発生させ、ノイズ加算手段４を介して分岐後の入力音声信号Ａに付加する。ノイズコントローラにおいて、印加するノイズの強度は、入力音声信号の平均音量に対して０〜＋５ｄＢになるように設定する。入力音声信号Ａにノイズが付加された音声信号Ａ′は第１の帯域通過フィルタ手段６によって周波数帯域毎に分割され、正規化手段群８の各正規化手段で正規化されてパワー演算手段群９の各パワー演算手段に伝えられ、それぞれのパワーの時間変化信号が算出される。パワーの時間変化信号は非線形反応素子群１０のうちの各周波数帯域の非線形反応素子に伝えられる。
各非線形反応素子においては、ｕ_ｎ（ｔ）の値に応じた反応を示し、ある閾値以上では発火作用を示す。

また、ノイズコントローラ２は発火を示した周波数帯域の非線形反応素子におけるパワーの時間変化信号を音声データベース手段２に格納された音声のパワーデータと比較し、その誤差が小さくなるようにノイズ発生装置におけるノイズ発生を操作するものである。ここでの比較は、非線形反応素子の出力が０か１の二値になっているので、音声データベースのパワースペクトルのデータをある閾値で二値化したものと、非線形反応素子の出力（二値）とを比較して、それぞれの値が帯域毎に合っているかどうかを見るものである。また、その誤差とは、音声データベース手段２に格納されたパワースペクトルのデータにおいて、パワーの大きい帯域と非線形反応素子で発火を示している帯域との違いに該当する。

分岐後の入力音声信号Ｂはそのまま第２の帯域通過フィルタ７によって周波数帯域毎に分割され、ゲート手段１１に伝えられる。音声合成手段１２は、発火を示した周波数帯域信号を合成し、動的音声フィルタの出力音声信号として出力する。

以上の動的音声フィルタにより入力音声信号から特定の音声を選択的に通過させる過程において、最初にホワイトノイズのような単純なノイズを付加する。このような最初のホワイトノイズが付加された場合に、非線形反応素子における反応により生成されたパワーの時間的変化信号は音声データベースにおける音声のパワーデータとの誤差が大きいものであるが、ノイズコントローラでの操作により逐次この誤差が減少していく。このように、この動的音声フィルタは、音声データベースをもとにコントロールしたノイズを付加し、時間的に変化するフィルタとして構成したものであり、そのようにノイズを付加することによって、音声信号を認識し易い形にすることになる。

［パラメータの設定］
本発明による特定の音声の選択的通過及びそのための動的音声フィルタの作用は、非線形反応素子のモデルにおけるパラメータに依存する。次にこれらのパラメータの設定について、比較的単純な場合についてのシミュレーションをもとに説明する。

共通設定として、帯域通過フィルタの個数が１００、最低から最高周波数フィルタの中心周波数が８０〜１６０３６Ｈｚとしている。
１）単一周波数成分音信号の場合
これは、確率共鳴現象が実現されることを確認する意味でのシミュレーションである。１０００Ｈｚの正弦波状音信号を入力音声信号として、その平均音量に対して印加するホワイトノイズのノイズ強度を［無し、−３０ｄＢ，−２５ｄＢ，−２０ｄＢ，−１５ｄＢ，−１０ｄＢ，−５ｄＢ，０ｄＢ，＋５ｄＢ］の９種類とし、単安定系でチューリング条件（Ｄ_ｕ≪Ｄ_ｖ）の下で、ＦＨＮモデルのパラメータを［Ｄ_ｕ＝０．０１，Ｄ_ｖ＝０．０４，ｄｘ＝０．１，ｄｔ＝０．００１，ａ＝０．１，ｂ＝２．０，ε＝０．００１，α＝４００．０］として、シミュレーションを行った。それによる印加ノイズ強度に対するＳＮ比は図４のようであった。図で横軸は印加ノイズの強度、縦軸はＳＮ比であり、ＳＮ比が高いほどもとの信号波形に近いと言える。ノイズ無しから−５ｄＢまでは１０００Ｈｚ信号が現れず、０ｄＢで急に１０００Ｈｚ信号が主要周波数成分として現れ、＋５ｄＢではこれが少し下がる。この結果から、ノイズ無しから−５ｄＢまでは拡散反応素子が注目信号よりホワイトノイズの方へ反応し、ノイズ強度０ｄＢで元の信号波形に最も忠実になり、＋５ｄＢでは注目信号がホワイトノイズに埋もれ始めるものと考えられ、確率共鳴現象が実現されていると言える。

２）２周波数成分混合音信号の場合
拡散反応素子として適切なモデルを求める意味でのシミュレーションであり、ノイズ印加は行わない。入力音信号として５００Ｈｚと４０００Ｈｚの正弦波状音信号を同程度の音量混合したものを用い、単安定系の場合にパラメータを［Ｄ_ｕ＝０．０１，Ｄ_ｖ＝０．０１，ｄｘ＝０．１，ｄｔ＝０．００１，ａ＝１．０，ｂ＝１０．０，ε＝０．００１，α＝５４０．０］とし、双安定系の場合にパラメータを［Ｄ_ｕ＝０．０１，Ｄ_ｖ＝０．０１，ｄｘ＝０．１，ｄｔ＝０．００１，ａ＝１．０，ｂ＝１０．０，ε＝０．００１，α＝３００．０］としてシミュレーションを行った。それによれば、ｕ-ｖ空間での非線形素子の振る舞い、ｕ-ｔでの非線形素子の時間的発展、出力である音信号の波形と周波数特性とから、単安定系では閾値を超える信号が連続して入力されてもｕ_ｎ値に振動が生じてその時間における信号情報が反映し難くなり、双安定系では閾値を一旦超えて発火すると、発火したままとなり、信号が小さくなっても状態を変えることがなくなる、という点で単安定系、双安定系それ自体では、モデルとして必ずしも十分ではないとも言える。

このことから、より適切なモデルとして単安定系と双安定系とを切り換えられる系を考える。この系は、全チャンネルの信号中の最大入力を予め調べ保持し、その最大入力に近い値の入力の際にだけ双安定となるようにパラメータｂを設定したものであり、これにより、ある程度最大入力に近い大きな入力値の場合に双安定になり、ｕ_ｎが安定点に留まり（発火状態となり）、入力値が小さくなると単安定へと系が切り換わり、これによりｕ_ｎの値が減衰して（ｕ_ｎ，ｖ_ｎ）＝（０，０）の安定点に戻る。パラメータを［Ｄ_ｕ＝０．０１，Ｄ_ｖ＝０．０１，ｄｘ＝０．１，ｄｔ＝０．００１，ａ＝１．０，ｂ＝５．０，ε＝０．００１，α＝１００．０］とした系についてのシミュレーションよれば、閾値を超える入力信号がある部分は発火し、入力信号が弱くなるかなくなると、発火が収まるようになり、出力音信号の精度もよく、動的な非線形フィルタとして適切なモデルであると言える。ただし、パラメータの設定がシビアにはなる。

本発明による特定音声を選択分離するための動的音声フィルタを構成する基本的要素をモデル化して示した図である。（ａ）図１のモデルにおける単安定型の非線形反応素子による活性−抑制因子濃度の時間発展を示すグラフである。（ｂ）双安定の非線形反応素子による活性−抑制因子濃度の時間発展を示す図である。（ｃ）非線形反応素子の素子間の拡散結合による活性−抑制因子濃度の変化を示す図である。本発明の実施例による特定音声を選択分離するための動的音声フィルタの構成を示す図である。ノイズ強度を変えた際の処理後出力信号と元信号とのＳＮ比を示す図である。

符号の説明

１音声データベース
２ノイズコントローラ
３ノイズ発生装置
４ノイズ加算器
５入力音声信号の分岐部
６第１の帯域通過フィルタ
７第２の帯域通過フィルタ
８正規化手段群
９パワー演算手段群
１０非線形反応素子群
１１ゲート手段
１２音声合成手段

Claims

入力音声信号を二分し、複数の音声のパワーデータから選択されたものを用いてノイズを発生させ、該発生したノイズを前記二分された入力音声信号の一方に付加し、該入力音声信号にノイズが付加された音声信号を周波数帯域毎に分割するとともに、前記二分された入力音声信号の他方をそのまま同じ周波数帯域毎に分割し、前記ノイズが付加されて周波数帯域毎に分割された音声信号を正規化し、該正規化された音声信号からパワーの時間変化信号を算出し、該算出されたパワーの時間変化信号に対して非線形反応を生ぜしめて発火・非発火に応じて１または０の透過率を示す信号を生成させ、該生成された信号が非線形反応に際して発火を示した周波数帯域と前記音声のパワーデータとを比較し、両者の誤差が小さくなるように付加すべきノイズを操作し、前記非線形反応において出力信号が発火を示した周波数帯域に対応する前記他方の周波数帯域毎に分割された入力音声信号のみを合成して出力することからなることを特徴とする特定の音声を選択分離する方法。
前記付加すべきノイズの強度を入力音声信号の平均音量に対して０〜＋５ｄＢとなるように設定することを特徴とする請求項１に記載の特定の音声を選択分離する方法。
前記入力音声信号にノイズが付加された音声信号を周波数帯域毎に分割する際に、低域で周波数分解能が高く、高域で周波数分解能が低くなるようにすることを特徴とする請求項１、２のいずれかに記載の特定の音声を選択分離する方法。
前記非線形反応が前記分割された周波数帯域の各々についての活性因子濃度ｕ_ｎと抑制因子濃度ｖ_ｎとの時間発展を表す式

（ただし、ｇ_ｎは帯域通過フィルタを通過し正規化された音声信号の強度、ａ，ｂ，εは定数）により規定される非線形反応素子を用いて行われるものであることを特徴とする請求項１〜３のいずれかに記載の特定の音声を選択分離する方法。
前記非線形反応素子として、その入力値に応じて単安定系と双安定系とを切り換えられる系からなるものを用いることを特徴とする請求項１〜４のいずれかに記載の特定の音声を選択分離する方法。
入力音声信号を二分する分岐部と、複数の音声のパワーデータを格納した音声データベース手段と、該音声データベース手段における音声のバワーデータから選択されたものを用いてノイズ発生を操作するノイズコントローラと、該ノイズコントローラの操作によりノイズを発生し前記二分された入力音声信号の一方に付加するノイズ発生手段と、ノイズを付加された音声信号を周波数帯域毎に分割する第１の帯域通過フィルタ手段と、該帯域通過フィルタ手段により分割された周波数帯域毎の音声信号を正規化するための正規化手段と、該正規化手段により正規化された音声信号からパワーの時間変化信号を算出するパワー演算手段と、該パワー演算手段で算出されたパワーの時間変化信号に応じた非線形反応を周波数帯域毎に行う複数の非成形反応素子からなる非線形反応素子群と、前記二分された入力音声信号の他方を周波数帯域毎に分割する第２の帯域通過フィルタ手段と、該第２の帯域通過フィルタ手段により周波数帯域毎に分割された音声信号をゲート手段を介して合成して出力する音声合成手段とを備えてなり、該非線形反応素子群の各非線形反応素子は周波数帯域毎のパワーの時間変化信号に応じて発火・非発火を示す信号を出力し、前記ノイズコントローラは前記非線形反応素子群の各非線形反応素子が発火を示す信号を出力した周波数帯域と前記音声データベースに格納された音声のパワーデータとを比較して誤差が小さくなるように前記ノイズ発生手段によるノイズの発生を操作し、前記音声合成手段は周波数帯域ごとの信号のうち発火を示した周波数帯域の音声信号のみを選択し合成して出力するものであることを特徴とする動的音声フィルタ。
前記ノイズコントラーラが前記二分された入力音声信号の一方に付加するノイズの強度を入力音声信号の平均音量に対して０〜＋５ｄＢとなるように設定することを特徴とする請求項６に記載の動的音声フィルタ。
前記帯域通過フィルタ手段が低域で周波数分解能が高く、高域で周波数分解能が低くなる特性のものであることを特徴とする請求項６、７のいずれかに記載の動的音声フィルタ。
前記非線形反応素子群の各非線形反応素子が前記分割された周波数帯域の各々についての活性因子濃度ｕ_ｎと抑制因子濃度ｖ_ｎとの時間発展を表す式

（ただし、ｇ_ｎは帯域通過フィルタを通過し正規化された音声信号の強度、ａ，ｂ，εは定数）により規定される特性を有することを特徴とする請求項６〜８のいずれかに記載の動的音声フィルタ。
前記非線形反応素子がその入力値に応じて単安定系と双安定系とを切り換えられる系からなることを特徴とする請求項６〜９のいずれかに記載の動的音声フィルタ。