JP5875609B2 - 雑音抑圧装置 - Google Patents

雑音抑圧装置 Download PDF

Info

Publication number
JP5875609B2
JP5875609B2 JP2013557243A JP2013557243A JP5875609B2 JP 5875609 B2 JP5875609 B2 JP 5875609B2 JP 2013557243 A JP2013557243 A JP 2013557243A JP 2013557243 A JP2013557243 A JP 2013557243A JP 5875609 B2 JP5875609 B2 JP 5875609B2
Authority
JP
Japan
Prior art keywords
ratio
noise
input signal
spectrum
probability density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013557243A
Other languages
English (en)
Other versions
JPWO2013118192A1 (ja
Inventor
訓 古田
訓 古田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2013118192A1 publication Critical patent/JPWO2013118192A1/ja
Application granted granted Critical
Publication of JP5875609B2 publication Critical patent/JP5875609B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)

Description

この発明は、入力信号に重畳した背景雑音を抑圧する雑音抑圧装置に関する。
近年のディジタル信号処理技術の進展に伴い、携帯電話による屋外での音声通話、自動車内でのハンズフリー音声通話、および音声認識によるハンズフリー操作が広く普及している。これらの機能を実現する装置は高騒音環境下で用いられることが多いため、音声と共に背景雑音もマイクに入力されてしまい、通話音声の劣化および音声認識率の低下などを招く。そのため、快適な音声通話および高精度の音声認識を実現するためには、入力信号に混入した背景雑音を抑圧する雑音抑圧装置が必要である。
従来の雑音抑圧装置としては、例えば、時間領域の入力信号を周波数領域の信号であるパワースペクトルに変換し、入力信号のパワースペクトルと、入力信号から別途推定した推定雑音スペクトルとを用い、音声スペクトルがスーパーガウス分布、雑音スペクトルがガウス分布に従うと仮定して、MAP(事後確率最大化)推定法により雑音抑圧のための抑圧量を算出し、得られた抑圧量を用いて入力信号をパワースペクトルの振幅抑圧を行い、振幅抑圧されたパワースペクトルと入力信号の位相スペクトルを時間領域へ変換して雑音抑圧信号を得る方法がある(例えば、非特許文献1参照)。
さらに先行技術として、例えば特許文献1が開示されている。この従来の雑音抑圧装置では、周波数スペクトルに含まれる音声スペクトルの実部および虚部毎の出現確率を統計分布モデルにより近似することにより導出される音声スペクトルの推定式を偏微分して零とおき、かつ位相スペクトルをφとしたときの|cosφ|+|sinφ|を定数として近似される演算式に従って雑音抑圧量を算出することで、高品質な雑音抑圧装置を実現している。
また、別の先行技術として、例えば、音声スペクトルと雑音スペクトルの出現確率を、複数の確率密度関数を組み合わせた混合分布モデルで近似することで、精度の高い雑音抑圧を行う方法がある(例えば、非特許文献2参照)。
特開2005−202222号公報(第6〜11頁、図1)
T.Lotter,P.Vary,"Speech Enhancement by MAP Spectral Amplitude Estimation Using a Super−Gaussian Speech Model",EURASIP Journal on Applied Signal Processing,pp.1110−1126,No.7,2005 藤本、有木、"GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧"、電子情報通信学会技術報告、SP2003−117、pp.25−30、2003年12月
上記の従来法には、以下に述べる課題がある。
上記非特許文献1に開示された従来の雑音抑圧装置では、確率密度関数の分布形状を決定するパラメータが1つであり、また、そのパラメータは入力信号の様態によらず固定であるので、様々な入力信号に対して雑音抑圧量の推定精度が低いという課題がある。
また、上記特許文献1に開示された従来の雑音抑圧装置では、確率密度関数の分布形状を決定するために入力信号の位相スペクトルを用いているので、高品質な雑音抑圧を行うためには、音声信号の位相スペクトルを高精度に分析する必要がある。また、分布形状を定義するパラメータ(当該文献中では、近似のための設定値λと称している)を入力信号の様態に応じて変化させず固定であるので、入力信号である音声ならびに雑音が、近似のための設定値を越えるような変動をするなどの想定外の急激な変動が起きた場合に、雑音抑圧量の推定が追従できない課題がある。
また、上記非特許文献2に開示された従来の雑音抑圧装置では、複数の確率密度関数を組み合わせた混合分布モデルを用いることで精度の高い雑音抑圧が可能であるが、膨大な処理量が必要となる課題がある。
この発明は、かかる課題を解決するためになされたもので、簡便な処理で高品質な雑音抑圧装置を提供することを目的とする。
この発明の雑音抑圧装置は、入力信号のパワースペクトルと推定雑音スペクトルとから 周波数別のSN比を推定するSN比計算部と、入力信号のパワースペクトルを分析して、入力信号が音声らしいか、あるいは、雑音らしいかを示す第1の指標を算出し、音声の分布状態を表す予め定義された確率密度関数を当該第1の指標に基づいて制御する確率密度関数制御部とを備え、SN比計算部で推定された周波数別のSN比と確率密度関数制御部 により制御される確率密度関数を用いて抑圧量を算出するようにしたものである。
この発明によれば、パワースペクトルと推定雑音スペクトルから推定されるSN比に加 え、入力信号が音声らしいか、あるいは、雑音らしいかを示す第1の指標に基づいて制御した確率密度関数を用いて、雑音抑圧のための抑圧量を算出することにより、簡便な処理で、雑音区での違和感がなく、かつ、音声のゆがみも少ない高品質な雑音抑圧を行うことができる。
この発明の実施の形態1に係る雑音抑圧装置の構成を示すブロック図である。 実施の形態1における、確率密度関数制御部の内部構成を示すブロック図である。 実施の形1における、確率密度関数の変化を説明するグラフである。 この発明の実施の形態2に係る雑音抑圧装置の構成を示すブロック図である。 実施の形態2における、確率密度関数制御部の内部構成を示すブロック図である。 実施の形態2における、周期成分推定部による音声の調波構造の検出法を模式的に示したグラフである。 実施の形態2における、周期成分推定部による音声の調波構造の補正法を模式的に示したグラフである。 実施の形態2における、重み付きSN比計算部が第1の重み付き事後SN比算出時に用いる、非線形関数を示すグラフである。 実施の形態2に係る雑音抑圧装置の出力結果の一例であり、事後SN比の重み付けを行わない場合を示す。 実施の形態2に係る雑音抑圧装置の出力結果の一例であり、事後SN比の重み付けを行う場合を示す。 この発明の実施の形態4に係る雑音抑圧装置の構成を示すブロック図である。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、本実施の形態1による雑音抑圧装置の全体構成を示すブロック図である。本実施の形態1の雑音抑圧装置は、入力端子1、フーリエ変換部2、パワースペクトル計算部3、音声・雑音区間判定部4、雑音スペクトル推定部5、SN比計算部6、確率密度関数制御部7、抑圧量計算部8、スペクトル抑圧部9、逆フーリエ変換部10、出力端子11から構成されている。
以下、図に基づいてこの雑音抑圧装置の動作原理を説明する。
まず、マイクロホン(図示せず)などを通じて取り込まれた音声や音楽などが、A/D(アナログ・デジタル)変換された後、所定のサンプリング周波数(例えば、8kHz)でサンプリングされると共にフレーム単位(例えば、10ms)に分割され、本実施の形態1の雑音抑圧装置へ入力端子1を介して入力される。
フーリエ変換部2は、入力信号に対し例えばハニング窓掛けを行った後、例えば次の式(1)のように256点の高速フーリエ変換を行って、時間領域の信号x(t)から周波数領域の信号であるスペクトル成分X(λ,k)に変換する。
Figure 0005875609
ここで、tはサンプリング時間、λは入力信号をフレーム分割したときのフレーム番号、kはスペクトルの周波数帯域の周波数成分を指定する番号(以下、スペクトル番号と称する)、FT[・]はフーリエ変換処理を表す。
パワースペクトル計算部3では、次の式(2)を用いて、入力信号のスペクトル成分X(λ,k)からパワースペクトルY(λ,k)を得る。
Figure 0005875609
ここで、Re{X(λ,k)}およびIm{X(λ,k)}は、それぞれフーリエ変換後の入力信号スペクトルの実数部および虚数部を示す。
音声・雑音区間判定部4は、現フレームの入力信号が音声であるか雑音であるかの判定を行う。まず、次の式(3)を用いて、パワースペクトルY(λ,k)から正規化自己相関関数ρ(λ,τ)を求める。
Figure 0005875609
ここで、τは遅延時間であり、FT[・]はフーリエ変換処理を表し、例えば上式(1)と同じポイント数=256にて高速フーリエ変換を行えばよい。なお、式(3)はウィナーヒンチン(Wiener−Khintchine)の定理であるので説明は省略する。
Figure 0005875609
Figure 0005875609
続いて音声・雑音区間判定部4は、パワースペクトル計算部3が出力するパワースペクトルY(λ,k)と、前述の処理で得られた正規化自己相関関数の最大値ρmax(λ)と、後述する雑音スペクトル推定部5が出力する推定雑音スペクトルN(λ,k)とを入力し、現フレームの入力信号が音声であるか雑音であるかどうかの判定を行い、その結果を判定フラグとして出力する。音声区間と雑音区間の判定方法として、例えば、次の式(5)の条件を満たす場合に、音声であるとして判定フラグVflagを“1(音声)”にセットし、それ以外の場合には雑音であるとして判定フラグVflagを“0(雑音)”にセットして出力する。
Figure 0005875609
ここで、式(5)において、N(λ,k)は推定雑音スペクトルであり、SpowとNpowはそれぞれ入力信号のパワースペクトルの総和と推定雑音スペクトルの総和を表す。また、THFE_SNおよびTHACFは、判定用の所定の定数閾値であり、好適な例としてTHFR_SN=3.0およびTHACF=0.3であるが、入力信号の状態および雑音レベルに応じて適宜変更することもできる。
なお、本実施の形態1では音声・雑音区間判定方法として、自己相関関数法と入力信号の平均SN比を用いているが、これに限定されることは無く、ケプストラム分析など公知の手法を用いてもよい。また、当業者の自由裁量で様々な公知の手法を組み合わせることにより、判定精度を向上させることも可能である。
雑音スペクトル推定部5は、パワースペクトル計算部3が出力するパワースペクトルY(λ,k)と、音声・雑音区間判定部4が出力する判定フラグVflagとを入力し、次の式(6)と判定フラグVflagに従って雑音スペクトルの推定と更新を行い、推定雑音スペクトルN(λ,k)を出力する。
Figure 0005875609
ここで、N(λ−1,k)は前フレームにおける推定雑音スペクトルであり、雑音スペクトル推定部5内の例えばRAM(Random Access Memory)などの記憶手段(不図示)に保持されている。αは更新係数であり、0<α<1の範囲の所定の定数である。好適な例としてはα=0.95であるが、入力信号の状態および雑音レベルに応じて適宜変更することもできる。
上式(6)において、判定フラグVflag=0の場合には、現フレームの入力信号が雑音と判定されていることから、入力信号のパワースペクトルY(λ,k)と更新係数αを用いて、前フレームの推定雑音スペクトルN(λ−1,k)の更新を行っている。
一方、判定フラグVflag=1の場合には、現フレームの入力信号が音声であり、前フレームの推定雑音スペクトルN(λ−1,k)を、そのまま現フレームの推定雑音スペクトルN(λ,k)として出力する。
SN比計算部6は、パワースペクトル計算部3が出力するパワースペクトルY(λ,k)と、雑音スペクトル推定部5が出力する推定雑音スペクトルN(λ,k)と、後述する抑圧量計算部8が出力する前フレームのスペクトル抑圧量G(λ−1,k)とを用いて、スペクトル成分毎の事後SN比(a posteriori Signal to Noise Ratio)と事前SN比(a priori Signal to Noise Ratio)を計算する。
事後SN比γ(λ,k)は、パワースペクトルY(λ,k)と推定雑音スペクトルN(λ,k)とを用いて、次の式(7)から求める。
また、事前SN比ξ(λ,k)は、前フレームのスペクトル抑圧量G(λ−1,k)と、前フレームの事後SN比γ(λ,k)とを用いて、次の式(8)から求める。
Figure 0005875609
ここで、δは0<δ<1の範囲の所定の定数であり、本実施の形態ではδ=0.98が好適である。また、F[・]は半波整流を意味し、事後SN比γ(λ,k)がデシベル値で負の場合にゼロにフロアリングするものである。
以上、得られた事後SN比γ(λ,k)と事前SN比ξ(λ,k)とを、SN比計算部6からスペクトル抑圧部9へ出力する。
確率密度関数制御部7は、パワースペクトル計算部3が出力するパワースペクトルY(λ,k)と雑音スペクトル推定部5が出力する推定雑音スペクトルN(λ,k)とを用いて、現フレームの入力信号の様態に応じた確率密度関数の形状(分布状態)を決定し、第1の制御係数ν(λ,k)と第2の制御係数μ(λ,k)とを抑圧量計算部8へ出力する。この確率密度関数制御部7の詳細な動作については後述する。
抑圧量計算部8は、SN比計算部6が出力する事前SN比ξ(λ,k)および事後SN比γ(λ,k)と、確率密度関数制御部7が出力する第1の制御係数ν(λ,k)と第2の制御係数μ(λ,k)とを入力し、スペクトル毎の雑音抑圧量であるスペクトル抑圧量G(λ,k)を求め、スペクトル抑圧部9へ出力する。
スペクトル抑圧量G(λ,k)を求める手法としては、例えばJoint MAP法を適用できる。Joint MAP法は、雑音信号と音声信号をガウス分布であると仮定してスペクトル抑圧量G(λ,k)を推定する方法であり、事前SN比ξ(λ,k)および事後SN比γ(λ,k)を用いて、条件付き確率密度関数を最大にする振幅スペクトルと位相スペクトルを求め、その値を推定値として利用する。スペクトル抑圧量G(λ,k)は、確率密度関数の形状を決定する第1の制御係数ν(λ,k)と第2の制御係数μ(λ,k)とをパラメータとして、次の式(9)および式(10)で表すことができる。なお、Joint MAP法におけるスペクトル抑圧量導出法の詳細については、非特許文献1を参照することとし、ここでは省略する。
Figure 0005875609
スペクトル抑圧部9は、次の式(11)に従って、入力信号のスペクトル毎にスペクトル抑圧量G(λ,k)だけ抑圧を行い、雑音抑圧された音声信号スペクトルS(λ,k)を求め、逆フーリエ変換部10へ出力する。
Figure 0005875609
以上、得られた音声スペクトルS(λ,k)を逆フーリエ変換部10で逆フーリエ変換し、前フレームの出力信号と重ね合わせ処理した後、雑音抑圧された音声信号s(t)を出力端子11より出力する。
続いて、本発明の主要部である、確率密度関数制御部7の動作を説明する。図2に、確率密度関数制御部7の内部構成を示す。
この確率密度関数制御部7は、パワースペクトル計算部3が出力するパワースペクトルY(λ,k)と、雑音スペクトル推定部5が出力する推定雑音スペクトルN(λ,k)とを用いて、入力信号の様態に応じた確率密度関数の形状を決定すると共に、抑圧量計算部8でのスペクトル抑圧量G(λ,k)を計算するために必要な第1の制御係数ν(λ,k)と第2の制御係数μ(λ,k)とを出力する。
まず、本処理の内容を説明するために、前出の式(9)および式(10)を定義付けている、Joint MAP法における音声スペクトルの振幅|X|の確率密度関数p(|X|)を、式(12)に示す。
Figure 0005875609
ここで、Γ(・)はガンマ関数、σは音声スペクトルの分散である。また、μおよびνはそれぞれ確率密度関数の分布の急峻さ、分布の広がりを決める定数係数であるが、この2つの係数を変更することで、確率密度関数の形状を制御することができる。そこで、入力信号の様態に応じてμおよびνを変更することで、入力信号の様態に応じた確率密度関数を得ることができる。入力信号の様態に応じて確率密度関数を制御するには、例えば、前述の式(7)の事後SN比γ(λ,k)を利用することができる。
第2のSN比計算部71は、パワースペクトルY(λ,k)と推定雑音スペクトルN(λ,k)とを用いて対数を取り、次の式(13)のようにデシベル値で表現した第2の事後SN比γ(λ,k)を計算する。
Figure 0005875609
制御係数計算部72は、第2のSN比計算部71で得られた第2の事後SN比γ(λ,k)を用いて、次の式(14)〜(16)のように第1の制御係数ν(λ,k)、第2の制御係数μ(λ,k)を算出し、それぞれ抑圧量計算部8へ出力する。
Figure 0005875609
ここで、νMAX,νMINおよびμMAX,μMINは、それぞれ、第1の制御係数ν(λ,k)の上限・下限を決める所定の定数、および第2の制御係数μ(λ,k)の上限・下限を決める所定の定数であり、本実施の形態での好適な一例として、νMAX=2.0,νMIN=0.0,μMAX=10.0,μMIN=1.0であるが、入力信号中の音声および雑音の様態に応じて適宜変更することが可能である。
また、上式(16)のKν(k)およびKμ(k)は、第2の事後SN比と制御係数とを対応付ける関数であり、周波数が高くなるに従って、第2の事後SN比γ(λ,k)の値に対して第1の制御係数ν(λ,k)または第2の制御係数μ(λ,k)をより大きく変化させるように動作する。こうすることにより、例えば、高域の子音などの振幅が小さい音声に対し、雑音と誤って抑圧してしまうのを防止する効果がある。
また、CνおよびCμは実験的に得られる所定の定数であり、本実施の形態での好適な一例として、Cν=0.1,Cμ=−10であるが、これらも入力信号中の音声および雑音の様態に応じて適宜変更することが可能である。
上述の式(14)〜(16)によれば、第2の事後SN比γ(λ,k)が大きくなるに従って第1の制御係数ν(λ,k)は大きくなる、即ち、分散度合いが広がる一方、第2の制御係数μ(λ,k)は小さくなって分布の鋭さは小さくなる。その結果、確率密度関数p(|X|)の分布の形状はなだらかな傾きとなり、音声区間での音声信号の分布状態に近似していく。
他方、第2の事後SN比γ(λ,k)が小さくなるに従って、第1の制御係数ν(λ,k)は小さくなって分散度合いが狭くなる一方、第2の制御係数μ(λ,k)は大きくなって分布の鋭さは大きくなる。その結果、確率密度関数p(|X|)の分布の形状は急峻な傾きとなり、雑音区間での音声信号の分布状態(音声が存在しないか、あるいは小振幅の音声が存在する状態)に近似する。
図3に、第2の制御係数μ(λ,k)を固定して、第1の制御係数ν(λ,k)を変化させた場合の確率密度関数p(|X|)の分布状態の一例を示す。図3において、横軸は音声スペクトルの振幅|X|、縦軸は確率密度関数p(|X|)の値である。図3より、第1の制御係数ν(λ,k)が小さくなるに従って、確率密度関数p(|X|)の形状は狭く鋭くなり、音声信号の分布状態から雑音信号混在時の音声信号の分布状態に変化することが分かる。上記得られた第1の制御係数ν(λ,k)および第2の制御係数μ(λ,k)を、上式(12)および式(13)に当てはめることで、入力信号の様態に応じた高精度なスペクトル抑圧量G(λ,k)の算出を行うことができ、高品質な雑音抑圧が可能となる。
以上より、この実施の形態1によれば、雑音抑圧装置は、入力信号を入力する入力端子1と、時間領域の入力信号を周波数領域の信号に変換するフーリエ変換部2と、周波数領域の信号からパワースペクトルを計算するパワースペクトル計算部3と、入力信号のパワースペクトルに基づき音声区間と雑音区間を判定する音声・雑音区間判定部4と、パワースペクトルと判定結果より推定雑音スペクトルを推定する雑音スペクトル推定部5と、パワースペクトルと推定雑音スペクトルよりSN比を計算するSN比計算部6と、入力信号が音声らしいか雑音らしいかを示す第1の指標に基づいて、音声の分布状態を定義する確率密度関数を制御する確率密度関数制御部7と、SN比と確率密度関数より雑音抑圧のための抑圧量を算出する抑圧量計算部8と、抑圧量に応じてパワースペクトルの振幅抑圧を行うスペクトル抑圧部9と、振幅抑圧されたパワースペクトルを時間領域へ変換して雑音抑圧信号を得る逆フーリエ変換部10と、雑音抑圧信号を出力する出力端子11とを備え、確率密度関数制御部7が、入力信号の周波数別のSN比(第2の事後SN比)を推定する第2のSN比計算部71と、第2のSN比計算部71で推定されたSN比を第1の指標に用いて確率密度関数を制御する制御係数計算部72とを有するように構成した。このため、スペクトル抑圧量算出時において、入力信号の様態に応じた確率密度関数、即ち、音声区間および雑音区間での音声信号の分布状態に適合した確率密度関数を適用できるので、簡便な処理で、雑音区間での異音感が無く、かつ、音声の歪みも少ない高品質な雑音抑圧を行うことができる。
なお、実施の形態1では、第1の制御係数ν(λ,k)および第2の制御係数μ(λ,k)の両方について入力信号の様態に応じた制御を行っているが、どちらか一方の制御だけでも良く、単独でも同様な効果を奏効する。
実施の形態2.
上記実施の形態1では、事後SN比を用いることで入力信号の様態に応じた確率密度関数の制御を行っているが、例えば、この事後SN比に対して重み付けを行うことも可能である。これは、音声信号が雑音に埋もれている場合など、音声が存在するにも関わらずSN比が低くなる場合があるが、音声が存在する可能性が高い周波数帯域に対し、その事後SN比を高くなるように重み付け補正することで、雑音に埋もれた音声信号を誤って抑圧することを防止することを狙ったものである。
図4は、本実施の形態2に係る雑音抑圧装置の全体構成を示すブロック図であり、図5は、そのうちの確率密度関数制御部7aの内部構成を示すブロック図である。図4に示す確率密度関数制御部7aは、パワースペクトル計算部3のパワースペクトルY(λ,k)と、音声・雑音区間判定部4の判定フラグVflagと、雑音スペクトル推定部5の推定雑音スペクトルN(λ,k)と、SN比計算部6の事前SN比ξ(λ,k)とを入力に用いる。その他の構成については図1と同様である。
図5に示す確率密度関数制御部7aにおいて、図2の確率密度関数制御部7と異なる構成としては、周期成分推定部73、重み係数計算部74、重み付きSN比計算部75である。その他の構成については図2と同様である。
周期成分推定部73は、パワースペクトル計算部3が出力するパワースペクトルY(λ,k)を入力し、入力信号スペクトルの調波構造の分析を行う。調波構造の分析には、図6に示すように、パワースペクトルが構成する調波構造の山(以降、スペクトルピークと称する)を検出することで行う。具体的には、調波構造とは関係無い微小ピーク成分除去のため、例えば、パワースペクトルの最大値の20%程度の値を各パワースペクトル成分から減算した後、低域から順にパワースペクトルのスペクトル包絡の極大値をトラッキングして求める。なお、図6のパワースペクトル例は説明を容易にするために、音声スペクトルと雑音スペクトルを別成分として記載しているが、実際の入力信号は音声スペクトルに雑音スペクトルが重畳(加算)しており、雑音スペクトルよりもパワーが小さい音声スペクトルのピークは観測できない。
スペクトルピーク探索後、周期成分推定部73は、周期性情報p(λ,k)として、パワースペクトルの極大値(スペクトルピークである)であればp(λ,k)=1とし、そうでなければp(λ,k)=0としてスペクトル番号k毎に値をセットする。なお、図6の例では、全てのスペクトルピークの抽出を行っているが、例えば、SN比の良い帯域のみなど、特定の周波数帯域に限って行ってもよい。
続いて周期成分推定部73は、観測されたスペクトルピークの高調波周期を元に、雑音スペクトルに埋もれている音声スペクトルのピークを推定する。具体的には、例えば図7のように、スペクトルピークが観測されていない区間(雑音に埋もれた低域部分および高域部分)において、観測されたスペクトルピークの高調波周期(ピーク間隔)でスペクトルピークが存在すると見なし、そのスペクトル番号の周期性情報p(λ,k)=1をセットする。なお、極めて低い周波数帯域(例えば、120Hz以下)では音声成分が存在することは稀なので、その帯域では周期性情報p(λ,k)に“1”をセットしないこともできる。極めて高い周波数帯域でも同様なことが可能である。以上の処理を実施し、周期性情報p(λ,k)を周期成分推定部73から重み係数計算部74へ出力する。
重み係数計算部74は、周期成分推定部73が出力する周期性情報p(λ,k)と、雑音スペクトル推定部5が出力する判定フラグVflagと、SN比計算部6が出力する事前SN比ξ(λ,k)とを入力し、後述の重み付きSN比計算部75で計算する事後SN比に対し、スペクトル成分毎の重み付けを行うための調波構造重み係数W(λ,k)の算出を行う。
Figure 0005875609
ここで、W(λ−1,k)は前フレームの調波構造重み係数、βは平滑化のための所定の定数であり、例えばβ=0.8が好適である。また、w(k)は、周期性情報p(λ,k)=1の場合の重み付け定数であり、例えば次の式(18)のように判定フラグVflagと事前SN比ξ(λ,k)とから決定され、当該スペクトル番号での値と隣接するスペクトル番号の値とで平滑化される。隣接するスペクトル成分と平滑化することで、重み付け係数の急峻化抑制およびスペクトルピーク分析の誤差を吸収する効果がある。
なお、周期性情報p(λ,k)=0の場合の重み付け定数w(k)については通常は1.0のまま重み付け無しでよいが、必要に応じて次の式(18)のw(k)と同様に、判定フラグVflagと事前SN比ξ(λ,k)で制御することも可能である。
Figure 0005875609
ただし、
周期性情報p(λ,k)=1、かつ、判定フラグVflag=1(音声)の場合、
Figure 0005875609
周期性情報p(λ,k)=1、かつ、判定フラグVflag=0(雑音)の場合、
Figure 0005875609
ここで、THSB_SNRは所定の定数閾値である。上式(18)のように判定フラグと事前SN比で重み付け定数w(k)を制御することで、音声・雑音区間判定部4で入力信号が音声と判定された場合には、音声が雑音に埋もれているような帯域のスペクトルピーク(スペクトルの調波構造の山部分)に大きな重み付けを行い、また、もともとSN比が高い帯域のスペクトル成分には、過剰な重み付けを行わないようにできる。
一方、音声・雑音区間判定部4で入力信号が雑音と判定された場合には、重み付けを抑制する(重み付け定数w(k)を1.0にする)と共に、SN比が高いと推定されたスペクトル成分に対して重み付けを行うことで、例えば、現フレームが音声なのに雑音であると判定フラグが誤った場合においても、重み付けを行うことができる。なお、閾値THSB_SNRは、入力信号の状態および雑音レベルに応じて適宜変更することもできる。
重み付きSN比計算部75は、制御係数計算部72で第1の制御係数ν(λ,k)および第2の制御係数μ(λ,k)を計算するために必要な重み付き事後SN比を求める。まず、入力信号のパワースペクトルY(λ,k)と推定雑音スペクトルN(λ,k)より、次の式(19)により仮の事後SN比γ(λ,k)を求める。
Figure 0005875609
続いて重み付きSN比計算部75は、図8に示す非線形関数を参照し、仮の事後SN比γ(λ,k)に対応する重み係数W(λ,k)を算出する。図8に示すように、重み係数W(λ,k)は、仮の事後SN比γ(λ,k)が小さい程大きくなる一方、仮の事後SN比γ(λ,k)がある一定程度大きい(あるいは小さい)場合には一定の重みになるような関数を取る。また、図8中のWMINは重み係数W(λ,k)の下限を決める所定の定数、γハットおよびγハット(電子出願の関係上、ギリシャ文字の上の「^」を「ハット」と表記する)は所定の定数であり、本実施の形態における好適な一例として、WMIN=0.25、γハット=3(dB)、γハット=12(dB)であるが、入力信号中の音声および雑音の様態に応じて適宜変更することが可能である。
以上、得られた重み係数W(λ,k)を用いて推定雑音スペクトルN(λ,k)に重み付けを行い、次の式(20)のように第1の重み付き事後SN比γw1(λ,k)を算出する。
Figure 0005875609
上式(20)に示す重み付け処理を行うことで、SN比の低い帯域の事後SN比を高く推定するように補正した上で確率密度関数の制御を行うことができるので、音声の過度の抑圧を抑制することができ、高品質な雑音抑圧を行うことができる。
続いて重み付きSN比計算部75は、次の式(21)に示すように、高調波構造重み係数W(λ,k)を用いて、音声の高調波成分が存在する可能性が高い帯域では上式(20)で得られた第1の重み付き事後SN比γw1(λ,k)を高く推定するように補正を行い、第2の重み付き事後SN比γW2(λ,k)を算出する。
Figure 0005875609
上式(21)に示す重み付け処理を行うことで、音声の調波成分が存在する可能性が高い帯域の事後SN比を高く推定するように補正した上で確率密度関数の制御を行うことができるので、音声の過度の抑圧を抑制することができ、高品質な雑音抑圧を行うことができる。
以上、得られた第2の重み付き事後SN比γW2(λ,k)を、重み付きSN比計算部75から制御係数計算部72へ出力する。
図9および図10は、本実施の形態2に係る雑音抑圧装置の出力結果の一例として、音声区間における出力信号のスペクトルと対応する事後SN比とを模式的に示したグラフである。図9(a)は、図6に示すスペクトルを入力信号とした場合に、重み付けを行わない場合の事後SN比を示し、その場合の雑音抑圧処理結果である出力信号スペクトルを図9(b)に示す。他方、図10(a)は、上式(20)および式(21)に示す重み付けを行う場合の事後SN比を示し、その場合の雑音抑圧処理結果である出力信号スペクトルを図10(b)に示す。
なお、図9(a)、図10(a)において、事後SN比はデシベル値で示しており、事後SN比のデシベル値が負になる場合は表示を省略してゼロにフロアリングしている。
図9(a),(b)を見ると、雑音に埋もれている、あるいはSN比が低い帯域の音声のパワーが減衰してしまうのに対し、図10(a),(b)では、雑音に埋もれている、あるいはSN比が低い帯域の音声の事後SN比が高く推定されるように補正されているので、その帯域の音声パワーが回復し、更に良好な雑音抑圧を行えることがわかる。
以上より、この実施の形態2によれば、雑音抑圧装置の確率密度関数制御部7aは、入力信号の周波数別のSN比(仮の事後SN比)を推定し、入力信号が音声らしいか、あるいは、雑音らしいかを示す第2の指標に基づいて、当該周波数別のSN比を重み付けする重み付きSN比計算部75を有し、制御係数計算部72は、重み付きSN比計算部75で算出された重み付きSN比(第2の重み付き事後SN比)を第1の指標に用いて、確率密度関数を制御するように構成した。このため、音声の過度の抑圧を抑制することができ、高品質な雑音抑圧を行うことができる。
なお、この実施の形態2では、重み付きSN比計算部75が、入力信号の周波数別のSN比を推定し、このSN比に重み付けする構成にしたが、これに限定されるものではなく、重み付きSN比計算部75からSN比推定のための機能を分離して上記実施の形態1の第2のSN比計算部71に相当するSN比計算部を別途構成してもよい。この構成の場合には、重み付きSN比計算部75は、入力信号が音声らしいか、あるいは、雑音らしいかを示す第2の指標に基づいて周波数別のSN比を重み付けする。
また、この発明の実施の形態2によれば、第2の指標として、重み付きSN比計算部75が入力信号のパワースペクトルと推定雑音スペクトルとを用いて算出した仮の事後SN比を用い、音声が雑音に埋もれてSN比が負になっているような帯域においても、音声を保持するように事後SN比を補正した上で確率密度関数の制御を行っているので、音声の過度の抑圧を抑制することができ、高品質な雑音抑圧を行うことができる。
また、この実施の形態2によれば、第2の指標として、SN比計算部6が入力信号のパワースペクトルと推定雑音スペクトルとを用いて算出した事前SN比、および、音声・雑音区間判定部4が入力信号のパワースペクトルに基づき判定した音声区間と雑音区間の判定結果を用いて、事後SN比の重み付け制御を行っているので、雑音区間やSN比が高い帯域で不必要な重み付けを抑制できる効果があり、更に高品質な雑音抑圧を行うことができる。
また、この実施の形態2によれば、確率密度関数制御部7aが、入力信号中の音声の調波構造を分析する周期成分推定部73を有し、重み付きSN比計算部75は、周期成分推定部73の分析結果を第2の指標に用いて、入力信号のパワースペクトルのピーク部分のSN比を大きくするよう重み付けする構成にした。このため、音声が雑音に埋もれているような帯域においても、音声を保持するように事後SN比を補正することができ、更に高品質な雑音抑圧を行うことができる。
なお、この実施の形態2では、すべての帯域の事後SN比の補正を行っているが、これに限定されることはなく、必要に応じて低域のみあるいは高域のみの補正でも良いし、例えば500〜800Hz近傍のみなど、特定の周波数帯域の補正を行ってもよい。このような周波数帯域の補正は、例えば、風きり音、自動車エンジン音等の狭帯域性ノイズに埋もれた音声の補正に有効である。
また、この実施の形態2では、式(20)に示すSN比が低い帯域の重み付け処理と、式(21)に示す音声の調波構造に基づく重み付け処理の両方の重み付け処理を行っているが、これに限定されることは無く、どちらか一方だけ重み付け処理を行ってもよく、それぞれの重み付け処理にて述べている効果を奏効する。
実施の形態3.
上記実施の形態3の式(18)において、重み付けの値(重み付け定数w(k),w(k))を周波数方向に一定としているが、周波数別に異なる値にしても良い。重み係数計算部74は、例えば、音声の一般的な特徴として低域の方が調波構造がはっきりしている(スペクトルのピークと谷との差が大きい)ことから重み付けを大きくし、周波数が高くなるにつれて重み付けを小さくすることが可能である。
この実施の形態3によれば、重み係数計算部74が、重み付きSN比計算部75の重み付けの強度を周波数別に制御するように構成したので、音声の周波数特性に適した重み付けを行うことができ、更に高品質な雑音抑圧を行うことができる。
実施の形態4.
また、上記実施の形態2の式(18)において、重み付けの値(重み付け定数w(k),w(k))を所定の定数としているが、例えば、入力信号の音声らしさの指標に応じて複数の重み付け定数を切り替えて用いたり、所定の関数を用いて制御してもよい。
図11は、本実施の形態4に係る雑音抑圧装置の全体構成を示すブロック図である。図11に示す確率密度関数制御部7bは、パワースペクトル計算部3のパワースペクトルY(λ,k)と、音声・雑音区間判定部4の判定フラグVflagおよび正規化自己相関関数の最大値ρmax(λ)と、雑音スペクトル推定部5の推定雑音スペクトルN(λ,k)と、SN比計算部6の事前SN比ξ(λ,k)とを入力に用いる。その他の構成については図4と同様である。また、確率密度関数制御部7bは、図5と同様の内部構成である。
本実施の形態4に係る雑音抑圧装置では、入力信号の音声らしさの指標、即ち、入力信号の様態の制御要因として、例えば音声・雑音区間判定部4が出力する正規化自己相関関数の最大値ρmax(λ)を確率密度関数制御部7bの重み係数計算部74(図5に示す)に入力する。この重み係数計算部74は、上式(4)での正規化自己相関関数の最大値ρmax(λ)が高い場合、即ち、入力信号の周期構造がはっきりしている場合(入力信号が音声の可能性が高い)には重みを大きく、低い場合には重みを小さくすることが可能である。
また、正規化自己相関関数の最大値ρmax(λ)と、音声・雑音区間の判定フラグVflagを併せて用いてもよい。
さらに、上記実施の形態3を組み合わせてもよい。
以上より、この実施の形態4によれば、重み係数計算部74が、入力信号の様態に応じて、重み付きSN比計算部75の重み付けの強度を制御するように構成したので、入力信号が音声である可能性の高い場合に、音声の周期性構造を際立たせるように重み付けすることができるようになり、音声の劣化が少なくなり、更に高品質な雑音抑圧を行うことができる。
実施の形態5.
本実施の形態5の雑音抑圧装置は、上記実施の形態2の図4および図5に示す雑音抑圧装置と図面上では同様の構成であるため、以下では図4および図5を援用して説明する。
上記実施の形態2の図6の説明において、周期成分推定のために全てのスペクトルピークの検出を行っているが、例えば、SN比計算部6が出力する事前SN比ξ(λ,k)を周期成分推定部73へ入力し、その事前SN比ξ(λ,k)を用いてSN比が所定の閾値より高い帯域のみでスペクトルピークの検出を行うことも可能である。
同様に、音声・雑音区間判定部4による正規化自己相関関数ρ(λ,k)の算出においても、SN比が所定の閾値より高い帯域のみで計算を行うことも可能である。
以上より、この実施の形態5によれば、入力信号のうち、SN比が所定の閾値より高い周波数帯域の信号成分を用いて算出された第2の指標を用いるように構成した。このため、SN比が高い帯域のみでスペクトルピークの検出、および正規化自己相関関数の計算を行うことになり、スペクトルピークの検出精度および音声/雑音区間の判定精度を高めることができ、更に高品質な雑音抑圧を行うことができる。
実施の形態6.
本実施の形態6の雑音抑圧装置は、上記実施の形態2の図4および図5、または上記実施の形態4の図11に示す雑音抑圧装置と図面上では同様の構成であるため、以下では図4、図5および図11を援用して説明する。
上記実施の形態2〜5において、確率密度関数制御部7a,7bがスペクトルピークを強調するようにSN比の重み付けを行っているが、逆にスペクトルの谷部分を強調するように、即ち、スペクトルの谷においてはSN比を小さくするような重み付けも可能である。周期成分推定部73によるスペクトルの谷の検出法として、例えば、スペクトルピーク間のスペクトル番号の中央値をスペクトルの谷部分とすることが可能である。
以上より、この実施の形態6によれば、確率密度関数制御部7a,7bが、入力信号中の音声の調波構造を分析する周期成分推定部73を有し、重み付きSN比計算部75は、周期成分推定部73の分析結果を第2の指標に用いて、入力信号のパワースペクトルの他に部分のSN比を小さくするよう重み付けする構成にした。このため、音声の周期性構造を際立たせることができ、更に高品質な雑音抑圧を行うことができる。
実施の形態7.
本実施の形態7の雑音抑圧装置は、上記実施の形態1の図1、上記実施の形態2の図4、または上記実施の形態4の図11に示す雑音抑圧装置と図面上では同様の構成であるため、以下では図1、図4および図11を援用して説明する。
上記実施の形態1〜6において、確率密度関数制御部7,7a,7bがスペクトル成分毎に確率密度関数の制御を行っているが、例えば、3〜4kHzの高域についてはスペクトル成分毎の事後SN比による制御ではなく、当該帯域の事後SN比の平均値に基づく一括制御とすることも可能である。
以上より、この実施の形態7によれば、確率密度関数制御部7,7a,7bの制御係数計算部72が、所定の周波数帯域の平均SN比を用いて、当該周波数帯域一括で確率密度関数を制御するように構成したので、高品質な雑音抑圧が可能となる上、処理量削減が可能となる。
実施の形態8.
本実施の形態8の雑音抑圧装置は、上記実施の形態1の図1、上記実施の形態2の図4または上記実施の形態4の図11に示す雑音抑圧装置と図面上では同様の構成であるため、以下では図1、図4および図11を援用して説明する。
上記実施の形態1〜7において、確率密度関数制御部7,7a,7bは、入力信号の事後SN比を第1の指標に用いて確率密度関数を制御しているが、これに限ることは無く、入力信号が音声らしいか、あるいは、雑音らしいかを示す別の指標を用いることが可能である。例えば、入力信号スペクトルの分散、入力信号スペクトルのスペクトルエントロピ、自己相関関数、ゼロ交差数などの、公知の分析手段により得られる指標を単独または複数組み合わせて用いることができる。
例えば、第1の指標に入力信号スペクトルの分散を用いる場合、確率密度関数制御部7,7a,7bは、分散が大きい場合には音声の可能性が高いので、第1の制御係数ν(λ,k)を大きくし、第2の制御係数μ(λ,k)は小さくするような制御を行う。分散が小さい場合には逆に第1の制御係数ν(λ,k)を小さくし、第2の制御係数μ(λ,k)は大きくするような制御を行えば良い。また、指標である入力信号スペクトルの分散と制御係数とを対応付ける関数は、指標と制御係数の対応状態を観察して実験的に求めることが可能である。
以上より、この実施の形態8によれば、入力信号の様態を表す第1の指標として事後SN比以外の指標を用いても、音声区間および雑音区間での音声信号の分布状態に適合した確率密度関数を適用できるので、簡便な処理で、雑音区間での異音感が無く、かつ、音声の歪みも少ない高品質な雑音抑圧を行うことができる。また、複数の指標を組み合わせることで確率密度関数の制御精度を高めることができ、更に高品質な雑音抑圧を行うことができる。
実施の形態9.
本実施の形態9の雑音抑圧装置は、上記実施の形態2の図4および図5、または上記実施の形態4の図11に示す雑音抑圧装置と図面上では同様の構成であるため、以下では図4および図5を援用して説明する。
上記実施の形態2において、重み係数計算部74が音声の調波構造の分析結果から調波構造重み係数を算出し、重み付きSN比計算部75がその調波構造重み係数Wh(λ,k)で事後SN比を重み付けし、制御係数計算部72が重み付けされた事後SN比を用いて確率密度関数の制御を行っていたが、例えば、音声の調波構造の分析結果から直接確率密度関数の制御を行うことも可能である。
具体的には、周期成分推定部73が出力する周期性情報p(λ,k)を直接、制御係数計算部72へ入力する。制御係数計算部72は、周期性情報p(λ,k)=1の場合にはその帯域は音声の可能性が高いので、第1の制御係数ν(λ,k)を大きくし、第2の制御係数μ(λ,k)は小さくするような制御を行う。一方、周期性情報p(λ,k)=0の場合にはその帯域は雑音の可能性が高いので、逆に第1の制御係数ν(λ,k)を小さくし、第2の制御係数μ(λ,k)は大きくするような制御を行う。なお、制御要因である周期性情報と制御係数とを対応付ける関数は、制御要因と制御係数の対応状態を観察して実験的に求めることが可能である。
この構成の場合には、図5の確率密度関数制御部7aのうち、重み係数計算部74および重み付きSN比計算部75が省略可能である。
以上より、この実施の形態9によれば、確率密度関数制御部7a,7bが、入力信号中の音声の調波構造を分析する周期成分推定部73と、周期成分推定部73の分析結果を第1の指標に用いて確率密度関数を制御する制御係数計算部72とを有するように構成した。このため、音声区間および雑音区間での音声信号の分布状態に適合した確率密度関数を適用できるので、簡便な処理で、雑音区間での異音感が無く、かつ、音声の歪みも少ない高品質な雑音抑圧を行うことができる上、事後SN比計算などの処理を省略できるので処理量削減の効果がある。
以上の全ての実施の形態1〜9では、雑音抑圧の方法として、最大事後確率法(Joint MAP法)を用いて説明しているが、その他の方法(例えば、最小平均2乗誤差短時間スペクトル振幅法)にも適用することができる。最小平均2乗誤差短時間スペクトル振幅法は例えば“Speech Enhancement Using a Minimum−Mean Square Error Short−Time Spectral Amplitude Estimator”(Y.Ephraim, D.Malah,IEEE Trans.ASSP,vol.ASSP−32,No.6 Dec.1984)に詳述されているため、説明は省略する。
また、以上の全ての実施の形態1〜9では、狭帯域電話(0〜4000Hz)の場合について説明しているが、狭帯域電話音声に限られるものではなく、例えば、0〜8000Hzなどの広帯域電話音声、および音楽などの音響信号に対しても適用可能である。
また、以上の全ての実施の形態1〜9において、雑音抑圧された出力信号は、デジタルデータ形式で音声符号化装置、音声認識装置、音声蓄積装置、ハンズフリー通話装置などの各種音声音響処理装置へ送出されるが、本実施の形態1〜9の雑音抑圧装置を、単独または上述の他の装置と共にDSP(デジタル信号処理プロセッサ)によって実現したり、ソフトウエアプログラムとして実行することでも実現可能である。プログラムは、ソフトウエアプログラムを実行するコンピュータの記憶装置に記憶していても良いし、CD−ROMなどの記憶媒体にて配布される形式でも良い。また、ネットワークを通じてプログラムを提供することも可能である。さらに、各種音声音響処理装置へ送出される他、D/A(デジタル・アナログ)変換の後、増幅装置にて増幅し、スピーカなどから直接音声信号として出力することも可能である。
上記以外にも、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
以上のように、この発明に係る雑音抑圧装置は、高品質な雑音抑圧が可能なため、音声通信・音声蓄積・音声認識システムが導入された、カーナビゲーション・携帯電話・インターフォン等の音声通信システム・ハンズフリー通話システム・TV会議システム・監視システム等の音質改善、および、音声認識システムの認識率の向上のために供するのに適している。
1 入力端子、2 フーリエ変換部、3 パワースペクトル計算部、4 音声・雑音区間判定部、5 雑音スペクトル推定部、6 SN比計算部、7,7a,7b 確率密度関数制御、8 抑圧量計算部、9 スペクトル抑圧部、10 逆フーリエ変換部、11 出力端子、71 第2のSN比計算部、72 制御係数計算部、73 周期成分推定部、74 重み係数計算部、75 重み付きSN比計算部。

Claims (11)

  1. 時間領域の入力信号を周波数領域の信号であるスペクトル成分およびパワースペクトルに変換し、前記パワースペクトルと前記入力信号から別途推定した推定雑音スペクトルとを用いて雑音抑圧のための抑圧量を算出し、前記抑圧量に応じて前記スペクトル成分の振幅抑圧を行い、当該振幅抑圧されたスペクトル成分を時間領域へ変換して雑音抑圧信号を得る雑音抑圧装置において、
    前記入力信号のパワースペクトルと前記推定雑音スペクトルとから周波数別のSN比を 推定するSN比計算部と、
    前記入力信号のパワースペクトルを分析して、前記入力信号が音声らしいか、あるいは、雑音らしいかを示す第1の指標を算出し、音声の分布状態を表す予め定義された確率密度関数を当該第1の指標に基づいて制御する確率密度関数制御部とを備え、
    前記SN比計算部で推定された前記周波数別のSN比と前記確率密度関数制御部により制御される前記確率密度関数を用いて前記抑圧量を算出することを特徴とする雑音抑圧装置。
  2. 前記確率密度関数制御部は、
    前記入力信号のパワースペクトルと前記推定雑音スペクトルとから第2のSN比を推定 する第2のSN比計算部と、
    前記第2のSN比計算部で推定された第2のSN比を前記第1の指標に用いて、前記確率密度関数を制御する制御係数計算部とを有することを特徴とする請求項1記載の雑音抑圧装置。
  3. 前記確率密度関数制御部は、
    前記入力信号のパワースペクトルと前記推定雑音スペクトルとから仮のSN比を推定し 前記入力信号が音声らしいか、あるいは、雑音らしいかを示す、前記第1の指標とは異 なる第2の指標に基づいて前記仮のSN比を重み付けして重み付きSN比を算出する重み付きSN比計算部と、
    記重み付きSN比計算部で算出された重み付きSN比を前記第1の指標に用いて、前記確率密度関数を制御する制御係数計算部とを有することを特徴とする請求項記載の雑音抑圧装置。
  4. 前記第2の指標は、前記SN比計算部で推定された前記周波数別のSN比、前記入力信号のパワースペクトルに基づき判定した音声区間と雑音区間の判定結果、前記入力信号 パワースペクトル中の音声の調波構造を分析した分析結果のうちの少なくとも1つであることを特徴とする請求項3記載の雑音抑圧装置。
  5. 前記入力信号のパワースペクトルを用いて前記入力信号の音声らしさの指標となる前記 入力信号の態様を判定する音声・雑音区間判定部を備え、
    前記確率密度関数制御部は、前記音声・雑音区間判定部で判定された前記入力信号の様態に応じて、前記重み付きSN比計算部の重み付けの強度を制御する重み係数計算部を有することを特徴とする請求項3記載の雑音抑圧装置。
  6. 前記確率密度関数制御部は、前記重み付きSN比計算部の重み付けの値として周波数別 に異なる値を用いる重み係数計算部を有することを特徴とする請求項3記載の雑音抑圧装置。
  7. 前記確率密度関数制御部は、
    前記入力信号のパワースペクトル中の音声の調波構造を分析する周期成分推定部と、
    前記周期成分推定部の分析結果を前記第1の指標に用いて、前記確率密度関数を制御する制御係数計算部とを有することを特徴とする請求項1記載の雑音抑圧装置。
  8. 前記SN比計算部で推定された前記周波数別のSN比所定の閾値より高い周波数帯 における前記第2の指標を用いることを特徴とする請求項4記載の雑音抑圧装置。
  9. 前記確率密度関数制御部は、
    前記入力信号のパワースペクトル中の音声の調波構造を分析する周期成分推定部を有し、
    前記重み付きSN比計算部は、前記周期成分推定部の分析結果を前記第2の指標に用いて、前記入力信号のパワースペクトルのピーク部分のSN比を大きくするよう重み付けするか、当該パワースペクトルの谷部分のSN比を小さくするよう重み付けするか、少なくとも何れか一方を行うことを特徴とする請求項3記載の雑音抑圧装置。
  10. 前記制御係数計算部は、前記第2のSN比計算部で推定された周波数別の前記第2のSN比を用いて所定の周波数帯域の平均SN比を計算し、当該平均SN比を用いて前記所定の周波数帯域一括で前記確率密度関数を制御することを特徴とする請求項2記載の雑音抑圧装置。
  11. 前記制御係数計算部は、前記重み付きSN比計算部で推定された周波数別の前記重み付 SN比を用いて所定の周波数帯域の平均SN比を計算し、当該平均SN比を用いて前記所定の周波数帯域一括で前記確率密度関数を制御することを特徴とする請求項記載の雑音抑圧装置。
JP2013557243A 2012-02-10 2012-02-10 雑音抑圧装置 Active JP5875609B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/000914 WO2013118192A1 (ja) 2012-02-10 2012-02-10 雑音抑圧装置

Publications (2)

Publication Number Publication Date
JPWO2013118192A1 JPWO2013118192A1 (ja) 2015-05-11
JP5875609B2 true JP5875609B2 (ja) 2016-03-02

Family

ID=48947005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013557243A Active JP5875609B2 (ja) 2012-02-10 2012-02-10 雑音抑圧装置

Country Status (5)

Country Link
US (1) US20140316775A1 (ja)
JP (1) JP5875609B2 (ja)
CN (1) CN104067339B (ja)
DE (1) DE112012005855B4 (ja)
WO (1) WO2013118192A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6339896B2 (ja) * 2013-12-27 2018-06-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 雑音抑圧装置および雑音抑圧方法
CN107086043B (zh) 2014-03-12 2020-09-08 华为技术有限公司 检测音频信号的方法和装置
CN105336344B (zh) * 2014-07-10 2019-08-20 华为技术有限公司 杂音检测方法和装置
WO2016038704A1 (ja) * 2014-09-10 2016-03-17 三菱電機株式会社 雑音抑圧装置、雑音抑圧方法および雑音抑圧プログラム
JPWO2016092837A1 (ja) 2014-12-10 2017-09-28 日本電気株式会社 音声処理装置、雑音抑圧装置、音声処理方法およびプログラム
JP6602406B2 (ja) * 2015-06-30 2019-11-06 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン データベースを生成するための方法および装置
CN105989850B (zh) * 2016-06-29 2019-06-11 北京捷通华声科技股份有限公司 一种回声对消方法及装置
US10771631B2 (en) * 2016-08-03 2020-09-08 Dolby Laboratories Licensing Corporation State-based endpoint conference interaction
JP7000773B2 (ja) 2017-09-27 2022-01-19 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
US10043530B1 (en) 2018-02-08 2018-08-07 Omnivision Technologies, Inc. Method and audio noise suppressor using nonlinear gain smoothing for reduced musical artifacts
US10043531B1 (en) * 2018-02-08 2018-08-07 Omnivision Technologies, Inc. Method and audio noise suppressor using MinMax follower to estimate noise
US10785085B2 (en) * 2019-01-15 2020-09-22 Nokia Technologies Oy Probabilistic shaping for physical layer design
US11270720B2 (en) * 2019-12-30 2022-03-08 Texas Instruments Incorporated Background noise estimation and voice activity detection system
CN111986691B (zh) * 2020-09-04 2024-02-02 腾讯科技(深圳)有限公司 音频处理方法、装置、计算机设备及存储介质
CN112309418B (zh) * 2020-10-30 2023-06-27 出门问问(苏州)信息科技有限公司 一种抑制风噪声的方法及装置
CN114385977B (zh) * 2021-12-13 2024-05-28 广州方硅信息技术有限公司 信号的有效频率检测方法、终端设备及存储介质
CN116756597B (zh) * 2023-08-16 2023-11-14 山东泰开电力电子有限公司 基于人工智能的风电机组谐波数据实时监测方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
JP4542790B2 (ja) 2004-01-16 2010-09-15 株式会社東芝 ノイズサプレッサ及びノイズサプレッサを備えた音声通信装置
US7649988B2 (en) * 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
JP4617497B2 (ja) * 2005-07-01 2011-01-26 株式会社国際電気通信基礎技術研究所 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
JP5152799B2 (ja) * 2008-07-09 2013-02-27 国立大学法人 奈良先端科学技術大学院大学 雑音抑圧装置およびプログラム
US20100008520A1 (en) * 2008-07-09 2010-01-14 Yamaha Corporation Noise Suppression Estimation Device and Noise Suppression Device
CN101814290A (zh) * 2009-02-25 2010-08-25 三星电子株式会社 增强语音识别***稳健性的方法
JP5713818B2 (ja) * 2011-06-27 2015-05-07 日本電信電話株式会社 雑音抑圧装置、方法及びプログラム
JP5942388B2 (ja) * 2011-09-07 2016-06-29 ヤマハ株式会社 雑音抑圧用係数設定装置、雑音抑圧装置および雑音抑圧用係数設定方法

Also Published As

Publication number Publication date
JPWO2013118192A1 (ja) 2015-05-11
DE112012005855B4 (de) 2021-07-08
DE112012005855T5 (de) 2014-10-30
US20140316775A1 (en) 2014-10-23
WO2013118192A1 (ja) 2013-08-15
CN104067339A (zh) 2014-09-24
CN104067339B (zh) 2016-05-25

Similar Documents

Publication Publication Date Title
JP5875609B2 (ja) 雑音抑圧装置
JP5183828B2 (ja) 雑音抑圧装置
JP5265056B2 (ja) 雑音抑圧装置
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
JP5646077B2 (ja) 雑音抑圧装置
US8571231B2 (en) Suppressing noise in an audio signal
JP5071346B2 (ja) 雑音抑圧装置及び雑音抑圧方法
KR101737824B1 (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
JP6135106B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
KR20110057596A (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치, 잡음 환경에서 음성 신호를 강화하는 방법 및 그 장치
JPWO2010046954A1 (ja) 雑音抑圧装置および音声復号化装置
WO2013164029A1 (en) Detecting wind noise in an audio signal
US9418677B2 (en) Noise suppressing device, noise suppressing method, and a non-transitory computer-readable recording medium storing noise suppressing program
JP2016042613A (ja) 目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバ
JP2004341339A (ja) 雑音抑圧装置
JP2014021307A (ja) 音声信号復元装置および音声信号復元方法
JP5131149B2 (ja) 雑音抑圧装置及び雑音抑圧方法
JP6261749B2 (ja) 雑音抑圧装置、雑音抑圧方法および雑音抑圧プログラム
JP2004020945A (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
Liu et al. Improved spectral subtraction speech enhancement algorithm
Liu et al. MTF based Kalman filtering with linear prediction for power envelope restoration

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160119

R150 Certificate of patent or registration of utility model

Ref document number: 5875609

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250