JP2006267396A - 特定の音声を選択分離する方法および動的音声フィルタ - Google Patents

特定の音声を選択分離する方法および動的音声フィルタ Download PDF

Info

Publication number
JP2006267396A
JP2006267396A JP2005083905A JP2005083905A JP2006267396A JP 2006267396 A JP2006267396 A JP 2006267396A JP 2005083905 A JP2005083905 A JP 2005083905A JP 2005083905 A JP2005083905 A JP 2005083905A JP 2006267396 A JP2006267396 A JP 2006267396A
Authority
JP
Japan
Prior art keywords
noise
signal
voice
band
divided
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005083905A
Other languages
English (en)
Inventor
Hidetoshi Miike
秀敏 三池
Atsushi Cho
篤志 長
Junsaku Okamoto
淳作 岡本
Takumi Komada
匠 駒田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaguchi University NUC
Original Assignee
Yamaguchi University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaguchi University NUC filed Critical Yamaguchi University NUC
Priority to JP2005083905A priority Critical patent/JP2006267396A/ja
Publication of JP2006267396A publication Critical patent/JP2006267396A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

【課題】 ノイズを含む混成音声から特定の音声を選択的に通過させ、特定の音声を認識し易くすること、またそのための時間的に変化する動的音声フィルタを提供すること。
【解決手段】 入力音声信号を二分し、音声データベース手段に格納された複数の音声のパワーデータから選択されたものを用いてノイズを発生させ、発生したノイズを入力音声信号に付加し、入力音声信号にノイズが付加された音声信号を第1の帯域通過フィルタ手段により周波数帯域毎に分割し、これを正規化した信号からパワーの時間変化信号を算出し、算出されたパワーの時間変化信号に対して非線形反応素子において非線形反応を生ぜしめ、非線形反応に際して発火を示した周波数帯域と音声のパワーデータとを比較し、両者の誤差が小さくなるように付加すべきノイズをノイズコントローラにより操作し、非線形反応において発火を示した周波数帯域に対応する他方の入力音声信号のみを合成して出力するようにする。
【選択図】 図3

Description

本発明は、ノイズを含む混成音声から特定の音声を選択的に通過させる方法及びそのための動的音声フィルタに関し、音声認識装置、補聴器、電話機等に適用されるものである。
音声情報を利用することは音声認識、音声合成等の種々の分野でなされているが、利用する音声がノイズ環境下のものである場合には、音声にノイズが付随するため、音声情報のみを利用するのに制約が生じ、そのままでは利用できないことにもなる。
ノイズ環境下の音声を利用するに際し従来行われている手法として、入力音声信号から帯域通過フィルタによりノイズを除去するものがある。しかしながら、この場合、ノイズが音声信号に対してそれほど小さくない場合には、必要とする音声もノイズとともに除去されてしまうことになり、音声情報を利用できなくなることがある。
最近では、ノイズ環境下での音声を利用するために、
音声情報に含まれる各音源の方向、距離の推定(音源定位)
各音源の特徴の違い(音声とその他のノイズ)の分析
というような面からのアプローチがなされているが、いまだ有効な手法として確立されてはいない。
特許文献に示されたものとして、次のようなものがある。
特開平4−227338号公報 特開2002−204175号公報
特許文献1は、雑音を含む混成信号を帯域分割し、各チャンネル毎の信号についてケプストラム分析等により音声帯域を分析し、検出された音声帯域情報に基づいて音声信号帯域を雑音信号帯域に対して相対的に強調して帯域合成する音声信号処理装置について開示している。
特許文献2は、劣化音声パワースペクトルと推定雑音パワースペクトルから重み付き劣化音声パワースペクトルを計算し、SN比に応じて補正された補正抑圧係数を計算し、それらにより歪みと雑音が少ない強調音声を得ることを開示している。
これら開示された技術では、音声信号帯域を雑音信号帯域に対して相対的に強調して帯域合成し、あるいはSN比に応じて補正された補正抑圧係数を計算し強調音声を得るようにしており、十分なノイズ除去の特性が得られず、ノイズを含む混合音声から特定の音声を選択分離することができなかった。
従来技術は、ノイズ帯域に対して音声信号帯域を相対的に強調し、あるいはノイズを抑圧するということでノイズを除去しようとするものであり、ノイズの除去特性は十分ではなく、混合音声から特定の音声を選択分離することはできないものであり、ノイズを含む混成音声から特定の音声を選択的に通過させること、またそのための動的音声フィルタが求められていた。
本発明は、前述のような課題を解決するべくなしたものであり、特定の音声を選択分離する方法として、入力音声信号を二分し、複数の音声のパワーデータから選択されたものを用いてノイズを発生させ、該発生したノイズを前記二分された入力音声信号の一方に付加し、該入力音声信号にノイズが付加された音声信号を周波数帯域毎に分割するとともに、前記二分された入力音声信号の他方をそのまま同じ周波数帯域毎に分割し、前記ノイズが付加されて周波数帯域毎に分割された音声信号を正規化し、該正規化された音声信号からパワーの時間変化信号を算出し、該算出されたパワーの時間変化信号に対して非線形反応を生ぜしめて発火・非発火に応じて1または0の透過率を示す信号を生成させ、該生成された信号が非線形反応に際して発火を示した周波数帯域と前記音声のパワーデータとを比較し、両者の誤差が小さくなるように付加すべきノイズを操作し、前記非線形反応において出力信号が発火を示した周波数帯域に対応する前記他方の周波数帯域毎に分割された入力音声信号のみを合成して出力するようにしてものである。
また、本発明は、動的音声フィルタとして、入力音声信号を二分する分岐部と、複数の音声のパワーデータを格納した音声データベース手段と、該音声データベース手段における音声のパワーデータから選択されたものを用いてノイズ発生を操作するノイズコントローラと、該ノイズコントローラの操作によりノイズを発生し前記二分された入力音声信号の一方に付加するノイズ発生手段と、ノイズを付加された音声信号を周波数帯域毎に分割する第1の帯域通過フィルタ手段と、該帯域通過フィルタ手段により分割された周波数帯域毎の音声信号を正規化するための正規化手段と、該正規化手段により正規化された音声信号からパワーの時間変化信号を算出するパワー演算手段と、該パワー演算手段で算出されたパワーの時間変化信号に応じた非線形反応を周波数帯域毎に行う複数の非成形反応素子からなる非線形反応素子群と、前記二分された入力音声信号の他方を周波数帯域毎に分割する第2の帯域通過フィルタ手段と、該第2の帯域通過フィルタ手段により周波数帯域毎に分割された音声信号をゲート手段を介して合成して出力する音声合成手段とを備えてなり、該非線形反応素子群の各非線形反応素子は周波数帯域毎のパワーの時間変化信号に応じて発火・非発火を示す信号を出力し、前記ノイズコントローラは前記非線形反応素子群の各非線形反応素子が発火を示す信号を出力した周波数帯域と前記音声データベースに格納された音声のパワーデータとを比較して誤差が小さくなるように前記ノイズ発生手段によるノイズの発生を操作し、前記音声合成手段は周波数帯域ごとの信号のうち発火を示した周波数帯域の音声信号のみを選択し合成して出力するようにしたものである。
課すべきノイズの強度を入力音声信号の平均音量に対して0〜+5dBとなるように設定するのがよい。
入力音声信号にノイズが付加された音声信号を周波数帯域毎に分割する帯域通過フィルタは、低域で周波数分解能が高く、高域で周波数分解能が低くなるようにするのがよい。
非線形反応素子は、前記分割された周波数帯域の各々についての活性因子濃度uと抑制因子濃度vとの時間発展を表す式
Figure 2006267396
Figure 2006267396
(ただし、gは帯域通過フィルタを通過し正規化された音声信号の強度、a,b,εは定数)により規定される非線形反応素子を用いて行われるものであるのがよい。
また、非線形反応素子は、その入力値に応じて単安定系と双安定系とを切り換えられる系からなるのがよい。
本発明によれば、確率共鳴現象を実現するモデルによる非線形反応素子を用い、音声データベースをもとにコントロールしたノイズを付加することによって、ノイズを含む混成音声から特定の音声を選択的に通過させることができ、時間的に変化する動的音声フィルタを構成することができ、特定の音声を認識し易くすることが可能である。
(本発明の前提となる考え方)
本発明では、カクテルパーティ効果、確率共鳴現象に着目し、それに沿った形で特定の音声を選択的に通過させる方法及びそのための動的音声フィルタを実現するものであり、まずそれらについて概観し、またそれによるモデル化について説明する。
(1)カクテルパーティ効果
本発明では、ノイズ環境下での音声情報取得、音声認識を向上させるという課題に取り組むにあたり、人間の聴覚上のカクテルパーティ効果の現象に着目し、この現象のコンピュータ利用技術として実現を目指すという方向性から、ノイズ環境下での音声情報取得、音声認識の改善を計ることを基本にしている。カクテルパーティ効果は人間がノイズ環境下において注目する音声を集中して聞き取ることができるということであるが、この場合のノイズとは、ホワイトノイズに代表される一般的な雑音に限られず、注目する音声以外の音声は人の声を含めて全てノイズとなり、また注目する音声は必ずしも人の声に限られない。
カクテルパーティ効果に向けた取り組みとして、一つには二波形分離システムがある。これは、人間が音声を聴く際に、個々の物理的特徴の分離、群化が生じ、群化された物理的特徴から一連の流れを形成した上で聴き取っているという心理物理学的事象を考慮して形成されたシステムであり、聴覚特性を考慮したフィルタを基底関数とするウェーブレット分析系で入力波形を帯域ごとに分割し、瞬時振幅、瞬時位相を求めておき、各フィルタ内で信号の振幅と雑音の振幅、信号と雑音との位相差を推定し、信号と雑音それぞれに関係する振幅成分と位相成分を集め、逆ウェーブレット変換により信号と雑音の波形を推定する。この処理で同一周波数帯域に信号と雑音が存在していても分離が可能であり、スペクトル歪みが改善される。
カクテルパーティ効果の実現に向けた試みがなされているが、混入するノイズが別人の声である場合にはノイズの分離精度が悪化する。また音源定位によりノイズを分離しようとすると、マイクアレイ等の特殊な装置が必要となる。
(2)確率共鳴現象
本発明では、先行技術と同様にカクテルパーティ効果の実現を目指しているが、ノイズをいかに分離するかという立場を少しずらして、むしろノイズを利用して注目する音声の強調ができるのではないかという考え方からアプローチしている。この考え方は、最近明らかにされてきている確率共鳴現象が適用されるであろうという判断に基づいている。そこで、まず確率共鳴現象について概略的に説明する。
ある情報に対して信号とノイズとの強度比(SN比)をあげるのには信号の強度を大きくし、ノイズを抑制するという手順によるのか一般的であるが、一方、微弱な入力信号に対する非線形系の応答が適切な強度のノイズによって増強される(SN比が向上する)という現象が知られており、確率共鳴現象とよばれている。
あるシステムについて
a.複数の安定状態が散在する
b.状態間の閾値が小さくなるような外部からの作用がある
c.適正な強度のランダムノイズが加えられる
という3つの条件が満たされた時に、このシステムの応答が外部からの作用と共鳴しているようにみえる。そのためこの状態が確率共鳴と呼ばれる。ある信号が形成するポテンシャルがシステムにおける複数の状態間の閾値を常に超えないものとして、外部からの何らかの作用とともにランダムなノイズが加わることにより遷移閾値が下がりシステムの状態間遷移が生ずる。さらにノイズの強度が適切であれば信号に確率的に同期したものとなり、ある最適のノイズ強度においてSN比が最大になる。確率共鳴現象は気候変動、化学反応、生体細胞等広い範囲に及ぶものであり、これまでに確率共鳴現象についての報告が多くなされている。
最初のものとしては、長期にわたる気候変動について、氷河期と間氷河期の移り変わりの要因は地球の回転運動に伴う揺らぎによって生じる日射量の変化にあり、気候変動の周期が地球の回転運動に伴う揺らぎの周期に対応することが判明し、これらを裏付けるものとして提唱されている。
化学反応のうち、ベルーゾフ・ジャボチンスキー(BZ)反応は、反応基質、媒質、酸化剤、金属触媒などを混ぜ合わせて生じる酸化反応であるが、特にこの反応は酸化と還元を繰り返しながら酸化していくという振動化学反応であり、中間生成物の自己触媒的な過程とフィードバック機構が存在し、BZ反応系に電流を加え、自励振動を制御し、電流がある閾値を超えると自励振動状態から興奮状態に転移すること、BZ反応系に弱い周期摂動とノイズを加えて興奮状態におけるバーストの周期性がみられるということから、確率共鳴現象が生じていることがわかる。
生体に関し、ザリガニの扇状尾における有毛細胞及び神経節を含む部分にわずかな周期的振動とともにランダムな振動を与えた時に有毛細胞から微弱な信号が検出されたことから、ザリガニは水が弱い乱流ノイズでかき乱されている時の方が乱流ノイズが存在しない時より効率よく水の流れを検出するという確率共鳴現象的振舞いを示すものと考えられる。
人の感覚神経系について、知覚心理実験において、例えば低コントラスト画像に適度な強度のノイズを印加することにより画像の認識率が向上する例が示されている。
聴覚器官における確率共鳴現象について、例えば1000Hzと4000Hzの正弦波状音信号に対して、ある適度な強度のノイズを印加した時に可聴域値が最も低下するということが報告されており、聴覚における確率共鳴現象の存在を示唆している。この報告では、単一もしくは二種混合周波数成分音でのノイズ印加実験に限られている。
本発明者らは、この聴覚器官における確率共鳴現象について確認し、さらに広域周波数成分音である人の音声に対してのノイズ印加の影響について実験を行った。
(A)単純音に対するホワイトノイズの影響について
100Hz,1000Hz,2500Hzの3種類の正弦波状音信号(基本刺激)のそれぞれに対して、基本刺激の音量の−30dBから+5dBまで、5dBきざみで8種類のレベルのホワイトノイズを印加する。印加するノイズ比はノイズなしを含めて9種類であり、3種類の基本刺激に対して27種類の刺激となる。正常な聴覚を持つ被検者に対して、27種類の刺激をランダムに並べ、確実に聴取できないレベルの音量から1dBずつ音量を上げながら与えていき、聴取できた時点(音量レベル)を確認する。結果として、0dBよりさらに小さい強度のノイズを印加した時に、3種類の基本刺激ともノイズ無しよりも認識閾値が下がっている。
(B)意味音に対するホワイトノイズの影響について
広帯域周波数成分音である人の声を基本刺激とする。基本刺激は、「バナナ」というような3モーラで構成される単語10種類とし、印加するホワイトノイズ比は、ノイズなしと、−6.02dBから12.04dBまでの6種類との計7種類として、70種類の刺激を(A)の場合と同様に、各刺激いついて5回与える。結果として、ノイズ強度が−2.5dBの時に最も認識率が向上し、それよりノイズ強度を上げると認識率が低くなった。
(C)意味音に対する周波数特性ノイズの影響について
基本刺激は(B)と同じで、ノイズを周波数特性ノイズとし、他の条件は(B)する。周波数特性ノイズとは、基本刺激の周波数特性を保ったまま位相をランダムに置き換え、ノイズ状に変化させたものである。結果として、周波数特性ノイズの強度を上げるにつれて認識率が低下した。
(D)生活環境音に対するホワイトノイズの影響について
人の声を含まない、生活環境音(蝉の声、鐘の音、水の流音等)に(A)の場合同様にホワイトノイズを印加する。結果として、−0.25dBあたりで閾値が改善され、(B)の場合に近い傾向となる。
(A)〜(D)から、音声の認識率の改善には、加えるノイズの種類が関係することが考えられる。
一方、人間の聴覚系において、蝸牛が音受容器として働き、受け取られた音が蝸牛の基部から先端部へ向かって伝搬し、その周波数成分の強さが神経の信号に変換されるという形で音声の認識がなされる。
(3)モデル化
本発明では、このような音声の認識に対するノイズの影響についての実験の結果と、人間の聴覚系とを考慮し、聴覚における確率共鳴現象をモデル化し、特定の音声を選択的に通過させるための動的音声フィルタを構成する。この聴覚における確率共鳴現象のモデルは、図1に示されるようなものであり、その基本的構成要素は、蝸牛を模擬した帯域通過フィルタと、それに繋がる聴覚神経を模擬した非線形反応素子である。このモデルに入力された音信号は、帯域通過フィルタによって複数のチャンネルに分解され、それぞれのチャンネルの信号は、ある正規化処理を施された後に非線形反応素子に入力される。ここでのチャンネルごとの信号の透過率を結果として出力し、最後に全チャンネルの結果として得られた信号を合成し、ある音声信号を出力する。ここでの出力は、実際に耳に入る音声ではなく、人間に聞こえている音声(頭の中の音声)を表すものと考えられる。
次に、このモデル化における各基本的構成要素の特徴について説明する。
a.帯域通過フィルタ
音声の聴取に際し、人間が蝸牛の部分で周波数分解を行うこと、その周波数分解能は、蝸牛の入口付近(高周波対応)で分解能が低く、奥の部分(低周波対応)で分解能が高い、というように場所により異なることがわかっている。これを踏まえて、本発明のモデルでは、低域で周波数分解能が高く、高域で周波数分解能が低くなるように帯域通過処理を行うことにし、
Figure 2006267396
ただし、f(t): 帯域通過フィルタを通過した後の音声信号
p(t): 帯域通過フィルタを通過する前の音声信号
cf : 帯域通過フィルタの中心周波数
: 帯域通過フィルタの帯域幅
α : 定数
で表されるフラットトップ型の複数のフィルタからなるフィルタ群を用いる。
このフィルタは接近した線スペクトルを分離するのには向かないが、その線スペクトルの振幅を正しく求めるのに有効である。式(1)において、各フィルタ間の波数を一定とし、フィルタごとに式中のTとcfが変化するようにして、蝸牛を模擬したフィルタの設計を行う。
b.入力信号の正規化
帯域通過フィルタ群を通過した各チャンネルの信号を全波整流処理により正規化する。帯域通過フィルタ群を通過した信号はまだ音信号であり、信号としては正負の値があるが、必要なのは各時間における振幅の値であることから、信号の絶対値をとる。人間の感覚において、振幅は対数的に把握され、この振幅感度はいわゆるデシベル(dB)で表されることから、対数をとる処理を行い、最後にある短時間窓内における振幅の時間平均をとる。この時間平均をとるのは、振幅が同じでも高周波の方が最大振幅が現れる頻度が高く、その分だけ閾値を超え発火が起こりやすいためであり、全フィルタ内で最も低い周波数の半周期の時間窓における平均振幅を各時間に求め、その時間の振幅情報とする。正規化の式は
Figure 2006267396
ただし、g(t): 正規化後の周波数帯域毎に分割された音声信号の強度
(t): 正規化前の周波数帯域毎に分割された音声信号
T : 最低周波数フィルタの中心周波数の半周期
β : 定数
のようになる。
c.非線形反応素子
動的な非線形反応素子としては、神経軸策における興奮伝達系モデルとして提案されているFHN(Fitz−Hugh&Nagumo)モデルを用いるのが好適であると考えられ、本発明ではFHNモデルをベースにする。
一般的なFHNモデルは、反応機構を備えた独立な素子同士が拡散結合することによって一つのシステムを形成する反応拡散系についてのモデルであり、各素子は発火を促す活性因子と、その働きを抑える抑制因子を生成する機構を持っている。FHNモデルは、活性因子濃度u、抑制因子濃度vの間の関係式(3)、(4)で特徴づけられるものである。
Figure 2006267396
Figure 2006267396
ここで、u=u(t)は活性因子濃度、v=v(t)は抑制因子濃度、Dは活性因子の拡散係数、a,b,εはそれぞれ定数である。
式(3)、(4)は各因子濃度の時間発展を表すものであり、式(3)の右辺第1項は拡散による因子の流入(拡散項)、他の項は素子が持つ反応機構による因子の生成量(反応項)を表す。式(3)の反応項は3次の非線形項を含むものである。神経系では刺激に対し反応しある興奮状態に達して「発火」状態になるが、式(3)はその非線形性により閾値を超えた場合の発火や不応期といった神経系の特徴を再現できると考えられる。各因子濃度u(t),v(t)は、非線形反応素子に加えられた音声の時間変化信号に対する時間変化する透過率を示す応答となる。
本発明では、この一般的なFHNモデルの式(3)、(4)に項を付加し、分割された周波数帯域の各々についての活性因子濃度uと抑制因子濃度vとの時間発展を表す式(5)、(6)の形を考える。
Figure 2006267396
Figure 2006267396
ここで、Dは抑制因子の拡散係数である。式(5)、(6)はそれぞれ一般的なFHNモデルの式(3)の右辺にgを付加し、式(4)の右辺にDを付加したものになっている。
他の素子と拡散結合を持たない独立した素子の振る舞いについてみると、式(5)、(6)から拡散項D,Dを除いて考え、さらに定常状態で時間発展が0となり、結局
=u(1−u)(u−a) ・・・・・・・・・(7)
=u/b ・・・・・・・・・(8)
となる。式(7)が表す曲線と式(8)が表す直線との交点では両因子濃度の時間的発展がともに0となり、この交点は定常点と呼ばれ、パラメータa,bによって決まる。0<a≦1の場合に、このu,vの関係をグラフで示すと図2(a),(b)のようになり、ヌルクラインと呼ばれる。図2(a)のように定常点が1つのシステムは単安定系であり、図2(b)のように2つの定常点を持つシステムは双安定系である。刺激uを与えた時の時間的発展の方向は、図2(a),(b)の曲線上でのdu/dt,dv/dtの正負に応じたものになる。単安定系では素子に閾値a以上の大きさの刺激が加わると活性因子の濃度が増大(発火)し、やがて元の安定定常状態へと戻る。双安定系では素子に閾値a以上の大きさの刺激が加わると、右の定常状態へ、そうでない場合は左の定常状態へと遷移する。なお、図2(b)で中間の交点は微小な刺激によって定常状態を脱する不安定定常点である。
素子が拡散結合して1つの集合体を形成すると、素子間で各因子の移動が生じる。抑制因子の拡散が活性因子の拡散を超えない程度の場合(D≧D)に、ある素子に閾値以上の大きさの刺激が与えられて発火を生じると、拡散の効果によって隣接する因子でも活性因子が増大する。この時閾値を超えれば、その素子も図2(c)で左回り軌跡に沿って連鎖的に発火を生じる。一方、抑制因子の拡散が活性因子の拡散よりも十分に大きい(D≪D)という条件はチューリング条件と呼ばれ、この条件下では各素子の時間発展は図2(c)の軌跡に従わなくなる。言い換えると、各素子は安定定常状態に収束せず、拡散係数に依存して空間的に各濃度分布が不均一なある状態で安定化する。
式(5)、(6)によるモデルでは、式(5)にgという要素が加わっており、このgに、帯域通過フィルタを通った後に正規化された信号が入力される。すると系自体が上下に振動する。式中のuを透過率として時間ステップ毎に出力する。出力の段階で実際にはuを[発火:1,非発火:0]と二値化する。これにより、素子が発火した場合には透過率が大きくなり、ひいてはその時間での信号がより入力のままに近い状態で透過することになる。また、式(5)、式(6)でu,vは多数の帯域に分解されたチャンネルに応じた分だけあり、条件によっては隣のチャンネルへ拡散の影響を与えることもできる。これにより、主要スペクトルの近隣周波数域における側抑制などの効果を実現することができる。
前述したa〜cのような特徴を有する基本的構成要素を備えた、本発明によるノイズの除去を行うための動的音声フィルタについて図3を参照して説明する。図3の動的音声フィルタは、音声データベース手段1、ノイズコントローラ2、ノイズ発生手段3、ノイズ加算手段4、入力音声信号の分岐部5、第1及び第2の帯域通過フィルタ手段6,7、正規化手段群8、パワー演算手段群9、非線形反応素子群10、ゲート手段11、音声合成手段12からなる。
音声データベース手段1はノイズの種類を決定するための音声のパワーデータを格納するもので、格納する音声のパワーデータとして、抽出したい音声の代表的なパワースペクトルを蓄積しておくのであり、ノイズや他のデータを含まない。音声データベース手段の作成に際しては、抽出したい特定の音声(人物の声、物音等)を録音し、必要に応じて処理可能な形に加工を施して、取り出し可能な形に蓄積する。第1及び第2の帯域通過フィルタ6,7はそれぞれモデル化について前述したように、フラットトップ型の複数のフィルタからなり、低域で周波数分解能が高く、高域で周波数分解能が低くなるようにしたものである。正規化手段群8の各正規化手段、非線形反応素子群10の各非線形反応素子は、それぞれ分割された周波数帯域に対応して備えられ、やはりモデル化について前述した特性を有するものであり、非線形反応素子群10の各非線形反応素子はFHNモデルにより周波数帯域ごとに活性因子濃度u(t)と抑制因子濃度v(t)との時間発展を規定する条件を満たすものであり、入力信号に応じた反応を示し、発火・非発火に応じて[0,1]の二値化された出力を生ずる。
この動的音声フィルタでは、入力音声信号を帯域通過フィルタにより周波数帯域分割した後に選択されたノイズを印加し、非線形反応素子での反応において特定の周波数帯域の音声信号が発火作用を示し、発火を示した周波数帯域の音声信号のみを合成して出力することにより、特定の音声を選択的に通過させる。
入力音声信号は特定の人物の音声と、それ以外の人物の音声、他の物音、ノイズを含むものであるが、この入力音声信号を分岐部においてA、Bの2つに分けておく。動的音声フィルタに備えられた音声データベース1は、入力音声信号にノイズとして付加する音声パターン群を備えており、ノイズコントローラ2はこの音声のパワーデータのうちからノイズとして付加する音声のパワーデータを選択し、ノイズ発生手段3によりノイズを発生させ、ノイズ加算手段4を介して分岐後の入力音声信号Aに付加する。ノイズコントローラにおいて、印加するノイズの強度は、入力音声信号の平均音量に対して0〜+5dBになるように設定する。入力音声信号Aにノイズが付加された音声信号A′は第1の帯域通過フィルタ手段6によって周波数帯域毎に分割され、正規化手段群8の各正規化手段で正規化されてパワー演算手段群9の各パワー演算手段に伝えられ、それぞれのパワーの時間変化信号が算出される。パワーの時間変化信号は非線形反応素子群10のうちの各周波数帯域の非線形反応素子に伝えられる。
各非線形反応素子においては、u(t)の値に応じた反応を示し、ある閾値以上では発火作用を示す。
また、ノイズコントローラ2は発火を示した周波数帯域の非線形反応素子におけるパワーの時間変化信号を音声データベース手段2に格納された音声のパワーデータと比較し、その誤差が小さくなるようにノイズ発生装置におけるノイズ発生を操作するものである。ここでの比較は、非線形反応素子の出力が0か1の二値になっているので、音声データベースのパワースペクトルのデータをある閾値で二値化したものと、非線形反応素子の出力(二値)とを比較して、それぞれの値が帯域毎に合っているかどうかを見るものである。また、その誤差とは、音声データベース手段2に格納されたパワースペクトルのデータにおいて、パワーの大きい帯域と非線形反応素子で発火を示している帯域との違いに該当する。
分岐後の入力音声信号Bはそのまま第2の帯域通過フィルタ7によって周波数帯域毎に分割され、ゲート手段11に伝えられる。音声合成手段12は、発火を示した周波数帯域信号を合成し、動的音声フィルタの出力音声信号として出力する。
以上の動的音声フィルタにより入力音声信号から特定の音声を選択的に通過させる過程において、最初にホワイトノイズのような単純なノイズを付加する。このような最初のホワイトノイズが付加された場合に、非線形反応素子における反応により生成されたパワーの時間的変化信号は音声データベースにおける音声のパワーデータとの誤差が大きいものであるが、ノイズコントローラでの操作により逐次この誤差が減少していく。このように、この動的音声フィルタは、音声データベースをもとにコントロールしたノイズを付加し、時間的に変化するフィルタとして構成したものであり、そのようにノイズを付加することによって、音声信号を認識し易い形にすることになる。
[パラメータの設定]
本発明による特定の音声の選択的通過及びそのための動的音声フィルタの作用は、非線形反応素子のモデルにおけるパラメータに依存する。次にこれらのパラメータの設定について、比較的単純な場合についてのシミュレーションをもとに説明する。
共通設定として、帯域通過フィルタの個数が100、最低から最高周波数フィルタの中心周波数が80〜16036Hzとしている。
1)単一周波数成分音信号の場合
これは、確率共鳴現象が実現されることを確認する意味でのシミュレーションである。1000Hzの正弦波状音信号を入力音声信号として、その平均音量に対して印加するホワイトノイズのノイズ強度を[無し、−30dB,−25dB,−20dB,−15dB,−10dB,−5dB,0dB,+5dB]の9種類とし、単安定系でチューリング条件(D≪D)の下で、FHNモデルのパラメータを[D=0.01,D=0.04,dx=0.1,dt=0.001,a=0.1,b=2.0,ε=0.001,α=400.0]として、シミュレーションを行った。それによる印加ノイズ強度に対するSN比は図4のようであった。図で横軸は印加ノイズの強度、縦軸はSN比であり、SN比が高いほどもとの信号波形に近いと言える。ノイズ無しから−5dBまでは1000Hz信号が現れず、0dBで急に1000Hz信号が主要周波数成分として現れ、+5dBではこれが少し下がる。この結果から、ノイズ無しから−5dBまでは拡散反応素子が注目信号よりホワイトノイズの方へ反応し、ノイズ強度0dBで元の信号波形に最も忠実になり、+5dBでは注目信号がホワイトノイズに埋もれ始めるものと考えられ、確率共鳴現象が実現されていると言える。
2)2周波数成分混合音信号の場合
拡散反応素子として適切なモデルを求める意味でのシミュレーションであり、ノイズ印加は行わない。入力音信号として500Hzと4000Hzの正弦波状音信号を同程度の音量混合したものを用い、単安定系の場合にパラメータを[D=0.01,D=0.01,dx=0.1,dt=0.001,a=1.0,b=10.0,ε=0.001,α=540.0]とし、双安定系の場合にパラメータを[D=0.01,D=0.01,dx=0.1,dt=0.001,a=1.0,b=10.0,ε=0.001,α=300.0]としてシミュレーションを行った。それによれば、u-v空間での非線形素子の振る舞い、u-tでの非線形素子の時間的発展、出力である音信号の波形と周波数特性とから、単安定系では閾値を超える信号が連続して入力されてもu値に振動が生じてその時間における信号情報が反映し難くなり、双安定系では閾値を一旦超えて発火すると、発火したままとなり、信号が小さくなっても状態を変えることがなくなる、という点で単安定系、双安定系それ自体では、モデルとして必ずしも十分ではないとも言える。
このことから、より適切なモデルとして単安定系と双安定系とを切り換えられる系を考える。この系は、全チャンネルの信号中の最大入力を予め調べ保持し、その最大入力に近い値の入力の際にだけ双安定となるようにパラメータbを設定したものであり、これにより、ある程度最大入力に近い大きな入力値の場合に双安定になり、uが安定点に留まり(発火状態となり)、入力値が小さくなると単安定へと系が切り換わり、これによりuの値が減衰して(u,v)=(0,0)の安定点に戻る。パラメータを[D=0.01,D=0.01,dx=0.1,dt=0.001,a=1.0,b=5.0,ε=0.001,α=100.0]とした系についてのシミュレーションよれば、閾値を超える入力信号がある部分は発火し、入力信号が弱くなるかなくなると、発火が収まるようになり、出力音信号の精度もよく、動的な非線形フィルタとして適切なモデルであると言える。ただし、パラメータの設定がシビアにはなる。
本発明による特定音声を選択分離するための動的音声フィルタを構成する基本的要素をモデル化して示した図である。 (a)図1のモデルにおける単安定型の非線形反応素子による活性−抑制因子濃度の時間発展を示すグラフである。(b)双安定の非線形反応素子による活性−抑制因子濃度の時間発展を示す図である。(c)非線形反応素子の素子間の拡散結合による活性−抑制因子濃度の変化を示す図である。 本発明の実施例による特定音声を選択分離するための動的音声フィルタの構成を示す図である。 ノイズ強度を変えた際の処理後出力信号と元信号とのSN比を示す図である。
符号の説明
1 音声データベース
2 ノイズコントローラ
3 ノイズ発生装置
4 ノイズ加算器
5 入力音声信号の分岐部
6 第1の帯域通過フィルタ
7 第2の帯域通過フィルタ
8 正規化手段群
9 パワー演算手段群
10 非線形反応素子群
11 ゲート手段
12 音声合成手段

Claims (10)

  1. 入力音声信号を二分し、複数の音声のパワーデータから選択されたものを用いてノイズを発生させ、該発生したノイズを前記二分された入力音声信号の一方に付加し、該入力音声信号にノイズが付加された音声信号を周波数帯域毎に分割するとともに、前記二分された入力音声信号の他方をそのまま同じ周波数帯域毎に分割し、前記ノイズが付加されて周波数帯域毎に分割された音声信号を正規化し、該正規化された音声信号からパワーの時間変化信号を算出し、該算出されたパワーの時間変化信号に対して非線形反応を生ぜしめて発火・非発火に応じて1または0の透過率を示す信号を生成させ、該生成された信号が非線形反応に際して発火を示した周波数帯域と前記音声のパワーデータとを比較し、両者の誤差が小さくなるように付加すべきノイズを操作し、前記非線形反応において出力信号が発火を示した周波数帯域に対応する前記他方の周波数帯域毎に分割された入力音声信号のみを合成して出力することからなることを特徴とする特定の音声を選択分離する方法。
  2. 前記付加すべきノイズの強度を入力音声信号の平均音量に対して0〜+5dBとなるように設定することを特徴とする請求項1に記載の特定の音声を選択分離する方法。
  3. 前記入力音声信号にノイズが付加された音声信号を周波数帯域毎に分割する際に、低域で周波数分解能が高く、高域で周波数分解能が低くなるようにすることを特徴とする請求項1、2のいずれかに記載の特定の音声を選択分離する方法。
  4. 前記非線形反応が前記分割された周波数帯域の各々についての活性因子濃度uと抑制因子濃度vとの時間発展を表す式
    Figure 2006267396
    Figure 2006267396
    (ただし、gは帯域通過フィルタを通過し正規化された音声信号の強度、a,b,εは定数)により規定される非線形反応素子を用いて行われるものであることを特徴とする請求項1〜3のいずれかに記載の特定の音声を選択分離する方法。
  5. 前記非線形反応素子として、その入力値に応じて単安定系と双安定系とを切り換えられる系からなるものを用いることを特徴とする請求項1〜4のいずれかに記載の特定の音声を選択分離する方法。
  6. 入力音声信号を二分する分岐部と、複数の音声のパワーデータを格納した音声データベース手段と、該音声データベース手段における音声のバワーデータから選択されたものを用いてノイズ発生を操作するノイズコントローラと、該ノイズコントローラの操作によりノイズを発生し前記二分された入力音声信号の一方に付加するノイズ発生手段と、ノイズを付加された音声信号を周波数帯域毎に分割する第1の帯域通過フィルタ手段と、該帯域通過フィルタ手段により分割された周波数帯域毎の音声信号を正規化するための正規化手段と、該正規化手段により正規化された音声信号からパワーの時間変化信号を算出するパワー演算手段と、該パワー演算手段で算出されたパワーの時間変化信号に応じた非線形反応を周波数帯域毎に行う複数の非成形反応素子からなる非線形反応素子群と、前記二分された入力音声信号の他方を周波数帯域毎に分割する第2の帯域通過フィルタ手段と、該第2の帯域通過フィルタ手段により周波数帯域毎に分割された音声信号をゲート手段を介して合成して出力する音声合成手段とを備えてなり、該非線形反応素子群の各非線形反応素子は周波数帯域毎のパワーの時間変化信号に応じて発火・非発火を示す信号を出力し、前記ノイズコントローラは前記非線形反応素子群の各非線形反応素子が発火を示す信号を出力した周波数帯域と前記音声データベースに格納された音声のパワーデータとを比較して誤差が小さくなるように前記ノイズ発生手段によるノイズの発生を操作し、前記音声合成手段は周波数帯域ごとの信号のうち発火を示した周波数帯域の音声信号のみを選択し合成して出力するものであることを特徴とする動的音声フィルタ。
  7. 前記ノイズコントラーラが前記二分された入力音声信号の一方に付加するノイズの強度を入力音声信号の平均音量に対して0〜+5dBとなるように設定することを特徴とする請求項6に記載の動的音声フィルタ。
  8. 前記帯域通過フィルタ手段が低域で周波数分解能が高く、高域で周波数分解能が低くなる特性のものであることを特徴とする請求項6、7のいずれかに記載の動的音声フィルタ。
  9. 前記非線形反応素子群の各非線形反応素子が前記分割された周波数帯域の各々についての活性因子濃度uと抑制因子濃度vとの時間発展を表す式
    Figure 2006267396
    Figure 2006267396
    (ただし、gは帯域通過フィルタを通過し正規化された音声信号の強度、a,b,εは定数)により規定される特性を有することを特徴とする請求項6〜8のいずれかに記載の動的音声フィルタ。
  10. 前記非線形反応素子がその入力値に応じて単安定系と双安定系とを切り換えられる系からなることを特徴とする請求項6〜9のいずれかに記載の動的音声フィルタ。
JP2005083905A 2005-03-23 2005-03-23 特定の音声を選択分離する方法および動的音声フィルタ Pending JP2006267396A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005083905A JP2006267396A (ja) 2005-03-23 2005-03-23 特定の音声を選択分離する方法および動的音声フィルタ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005083905A JP2006267396A (ja) 2005-03-23 2005-03-23 特定の音声を選択分離する方法および動的音声フィルタ

Publications (1)

Publication Number Publication Date
JP2006267396A true JP2006267396A (ja) 2006-10-05

Family

ID=37203473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005083905A Pending JP2006267396A (ja) 2005-03-23 2005-03-23 特定の音声を選択分離する方法および動的音声フィルタ

Country Status (1)

Country Link
JP (1) JP2006267396A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287041A (ja) * 2007-05-18 2008-11-27 Sony Corp 撮像装置、音声処理回路、ノイズ低減回路、ノイズ低減方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287041A (ja) * 2007-05-18 2008-11-27 Sony Corp 撮像装置、音声処理回路、ノイズ低減回路、ノイズ低減方法およびプログラム

Similar Documents

Publication Publication Date Title
Cooke et al. Evaluating the intelligibility benefit of speech modifications in known noise conditions
Darwin Listening to speech in the presence of other sounds
EP1319225B1 (en) Apparatus for acoustically improving an environment
Culling et al. Energetic masking and masking release
AU2001287919A1 (en) Apparatus for acoustically improving an environment
CN1868427A (zh) 适合汉语语音编码策略的人工耳蜗方法
Yoo et al. Speech signal modification to increase intelligibility in noisy environments
Cooke et al. Computational auditory scene analysis: Listening to several things at once
CN102522080B (zh) 用于保护语言私密性的随机干扰声信号产生***及其方法
JP2008508542A (ja) 構造化信号の非線形周波数解析方法及び装置
Aneeja et al. Extraction of fundamental frequency from degraded speech using temporal envelopes at high SNR frequencies
Kong et al. On the development of a frequency-lowering system that enhances place-of-articulation perception
Vainio et al. Effect of noise type and level on focus related fundamental frequency changes
Zilany et al. Predictions of speech intelligibility with a model of the normal and impaired auditory-periphery
Edraki et al. Spectro-temporal modulation glimpsing for speech intelligibility prediction
Ngo et al. Increasing speech intelligibility and naturalness in noise based on concepts of modulation spectrum and modulation transfer function
Mesgarani et al. Denoising in the domain of spectrotemporal modulations
Moore Interference effects and phase sensitivity in hearing
Peng et al. Development of acoustic denoising learning network for communication enhancement in construction sites
JP2006267396A (ja) 特定の音声を選択分離する方法および動的音声フィルタ
Ouzounov A robust feature for speech detection
Sivapatham et al. Gammatone filter bank-deep neural network-based monaural speech enhancement for unseen conditions
Heeren et al. Spectral loudness summation of nonsimultaneous tone pulses
Dai et al. An improved model of masking effects for robust speech recognition system
WO2017143334A1 (en) Method and system for multi-talker babble noise reduction using q-factor based signal decomposition