JP5127754B2 - 信号処理装置 - Google Patents
信号処理装置 Download PDFInfo
- Publication number
- JP5127754B2 JP5127754B2 JP2009072886A JP2009072886A JP5127754B2 JP 5127754 B2 JP5127754 B2 JP 5127754B2 JP 2009072886 A JP2009072886 A JP 2009072886A JP 2009072886 A JP2009072886 A JP 2009072886A JP 5127754 B2 JP5127754 B2 JP 5127754B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- frequency
- ambient noise
- characteristic information
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims abstract description 114
- 230000000873 masking effect Effects 0.000 claims description 136
- 238000012937 correction Methods 0.000 claims description 50
- 230000005236 sound signal Effects 0.000 claims description 50
- 230000001629 suppression Effects 0.000 claims description 43
- 238000000605 extraction Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 abstract description 4
- 238000001228 spectrum Methods 0.000 description 136
- 239000013598 vector Substances 0.000 description 59
- 238000000034 method Methods 0.000 description 56
- 238000004364 calculation method Methods 0.000 description 44
- 238000004891 communication Methods 0.000 description 31
- 238000005070 sampling Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 21
- 238000006243 chemical reaction Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 18
- 230000004048 modification Effects 0.000 description 13
- 238000012986 modification Methods 0.000 description 13
- 238000010606 normalization Methods 0.000 description 11
- 238000009499 grossing Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 10
- 230000007480 spreading Effects 0.000 description 8
- 239000000203 mixture Substances 0.000 description 7
- 230000009466 transformation Effects 0.000 description 6
- 230000003321 amplification Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/32—Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/005—Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/02—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
- H03G9/12—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices
- H03G9/18—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices for tone control and volume expansion or compression
Landscapes
- Noise Elimination (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
(第1の実施例)
図1は、この発明の一実施形態である通信装置の構成を示すものである。この図に示す通信装置は、例えば携帯電話などの無線通信装置の受信系を示すものであって、無線通信部1と、デコーダ2と、信号処理部3と、ディジタル・アナログ(D/A)変換器4と、ス
ピーカ5と、マイク6と、アナログ・ディジタル(A/D)変換器7と、ダウンサンプリン
グ部8と、エコー抑圧処理部9と、エンコーダ10とを備えている。本実施形態では、再生する目的信号は、受信した入力信号に含まれる遠端話者の音声信号であるとして説明する。
補正処理を施し、音量または周波数特性を変化させて、その出力信号をy[n] (n=0,1,…2N-1)としてD/A変換器4とダウンサンプリング部8に出力する。なお、信号処理部3の具体的な構成例については後に詳述する。
ピーカ5に出力する。スピーカ5は、アナログ信号である出力信号y(t)を音響空間へ出力する。
出力する。このアナログ信号には、近端話者の音声信号と、それ以外の周囲環境に起因するノイズ成分、出力信号y(t)と音響空間に起因するエコー成分などが混在する。例えばノイズ成分としては、電車などが出す騒音、車などのカーノイズ、人ごみでのストリートノイズなどが挙げられる。本実施形態では、通信装置として近端話者の音声信号は通信相手局との間での通信にて所望される必要な信号であるため、近端話者の音声信号以外の成分を周囲雑音として扱う。
ジタルの集音信号z’[n] (n=0,1,…N-1)を得て、Nサンプル単位でエコー抑圧処理部8に
出力する。ただし、この集音信号z[n]は、サンプリング周波数はfs[Hz]でfs_nb_low[Hz]
からfs_nb_high[Hz]までに帯域制限された狭帯域の信号である。ただし、fs_wb_low ≦ fs_nb_low < fs_nb_high < fs/2 ≦ fs_wb_high < fs’/2 を満たすものとする。
信データとして通信相手局へ送信される。
サンプル数をL=48として、1フレーム前の集音信号Lサンプルと当該フレームの集音信号z[n]のN=160サンプル分とLサンプル分の零詰めから、2M=256サンプルを用意するとする。この2Mサンプルに対して正弦波窓による窓関数を乗じることで窓掛けを行う。そして
、窓掛けを行った2Mサンプルの信号に対して、周波数領域変換を行う。周波数領域への変換は、例えばFFTの次数を2MとしFFTによって行うことができる。なお、周波数領域変換を施す信号に零詰めすることによってデータ長を2のべき乗(2M)にし、周波数領域変換の次数を2のべき乗(2M)にするとしたが、周波数領域変換の次数はこれに限らない。
する。ただし、ωは、周波数ビンを表す。なお、実信号のとき冗長なのは本来M-1 (=127)ビンであり、最高域の周波数ビンw=M (=128)を考慮するべきである。しかしながら、ここで周波数領域変換する信号は、帯域制限された音声信号を含むディジタル信号を前提としており、帯域制限によって最高域の周波数ビンw=Mを考慮しなくても音質に影響を及ぼ
さない。そこで、これ以降説明の簡略化のために、最高域の周波数ビンw=Mを考慮しない
記述にする。勿論、最高域の周波数ビンw=Mを考慮しても構わない。その際、最高域の周
波数ビンw=Mは、w=M-1と同等に扱うか、単独で扱うようにする。
散コサイン変換(DCT: Discrete Cosine Transform)などの周波数領域に変換する他
の直交変換を代用することも可能である。
このとき併せて、k=1である1次自己相関係数Acorr[f,1]も計算する。1次自己相関係数Acorr[f,1]は0から1の値をとり、0に近づくほどノイズ性が強い。つまり、1次自己相
関係数の値が小さいほど、集音信号に周囲雑音が多く含まれ、周囲雑音には含まない音声信号が少ないと判断される。そして、正規化されたk次自己相関係数Acorr[f,k] (k=1,…N-1)から式(2)に示すように、最大となる自己相関係数Acorr[f,k]を計算して、自己相
関係数最大値Acorr_max[f]とする。自己相関係数最大値Acorr_max[f]は0から1の値をとり、0に近づくほどノイズ性が強い。つまり、自己相関係数の値が小さいほど、集音信号に周囲雑音が多く含まれ、周囲雑音には含まない音声信号が少ないと判断される。
次に、パワースペクトル|Z[f,w]|2と周囲雑音のパワースペクトル|N[f,w]|2とを入力として、それらの比である各周波数帯域のSN比を、ここではdB表現したsnr[f,w] (w=0,1,…M-1)として式(3)で算出する。
そして、各周波数帯域のSN比snr[f,w] (w=0,1,…M-1)の和を式(4)で算出し、周波数別SN比総和値snr_sum[f]とする。周波数別SN比総和値snr_sum[f]は0以上の値をとり、この値が小さいほど集音信号中にノイズ成分である周囲雑音が多く含まれ、周囲雑音には含まない音声信号が少ないと判断される。
また、各周波数帯域のSN比snr[f,w] (w=0,1,…M-1)の分散を式(5)で算出し、周波数別SN比分散値snr_var[f]とする。周波数別SN比分散値snr_var[f]は0以上の値をとり、この値が小さいほどノイズ成分である周囲雑音が多く含まれ、周囲雑音には含まない音声信号が少ないと判断される。
最後に、複数の特徴量である、1次自己相関係数Acorr[f,1]、自己相関係数最大値Acorr_max[f]、周波数別SN比総和値snr_sum[f]、周波数別SN比分散値snr_var[f]を用い
て、これらにそれぞれ所定の重み付けによる重み付けを行い、複数の特徴量の重み付け和として周囲雑音度合type[f]を算出する。ここでは、周囲雑音度合type[f]が小さいほど周囲雑音が支配的であるとし、大きいほど周囲雑音には含まない音声信号が支配的であるとしているので、例えば、線形識別関数による判定を用いた学習アルゴリズムなどで重みw1、w2、w3、w4(ただしw1≧0、w2≧0、w3≧0、w4≧0)を設定して、式(6)で算出する。そして、周囲雑音度合type[f]が所定の閾値THRよりも大きければvad[f]=1とし、周囲雑音度合type[f]が所定の閾値THR以下であればvad[f]=0とする。
以上の説明では、複数の特徴量を求める際に、周波数ビンごとに処理するとして説明したが、周波数領域変換による隣接する複数の周波数ビンをまとめてグループを作り、そのグループ単位で処理を行っても構わない。また、フィルタバンクなどの帯域分割フィルタなどの周波数領域変換によって実現してもよい。
支配的に含まれる区間(周囲雑音区間)であると判別されたフレームのパワースペクトル|Z[f,w]|2 をフレーム単位で忘却させて平均的なパワースペクトルを算出し、これを各周波数帯域の周囲雑音のパワースペクトル|N[f,w]|2 (w=0,1,…M-1)として出力する。なお、具体的には、各周波数帯域の周囲雑音のパワースペクトル|N[f,w]|2 の算出は、式(8)に示すように1フレーム前の各周波数帯域の周囲雑音のパワースペクトル|N[f-1,w]|2 を用いて再帰的に行う。ただし、式(7)の忘却係数αN[ω]は1以下の係数であって、
好ましくは0.75〜0.95程度である。
周囲雑音情報帯域拡張部32は、各周波数帯域の周囲雑音のパワースペクトル|N[f,w]|2 を用いて、入力信号x[n]には存在して集音信号z[n]には存在しない周波数帯域成分を含めた信号のパワー値を生成する。
応のモデル化には、GMM(Gaussian mixture model)を利用する手法を用いる。ここでは、
狭帯域パワー値Pow_N[f]と周囲雑音の正規化したパワースペクトル|Nn[f,w]|2 (w=0,1,…M-1)を次数方向に連結してDnb次の狭帯域特徴量データとして用い、広帯域パワー値N_wb_level[f]をDwb次の広帯域特徴量データとして用いる(Dnb=M+1、Dwb=1)。
出する。狭帯域特徴量データの1つは、式(8)に基づいて算出される、パワースペクトルの各周波数ビンの総和である狭帯域パワー値Pow_N[f]である。
また他の狭帯域特徴量データとしては、狭帯域パワー値Pow_N[f]を用いて式(9)に従って各周波数ビンのパワースペクトル|N[f,w]|2を正規化したパワースペクトル|Nn[f,w]|2
を算出する。
辞書格納部322は、事前に集音した周囲雑音に基づいてDnb次の狭帯域特徴量データ
とDwb次の広帯域特徴量データとの対応をモデル化して学習された混合数Q(ここではQ=64)のGMMの辞書 λ1q={wq,μq,Σq}(q=1,…,Q)を格納する。なお、wqはq番目の混合正規分布の混合重みを示し、μqはq番目の混合正規分布の平均ベクトル、Σqはq次数目の混合正規分布の共分散行列(対角共分散行列または全共分散行列)を表している。なお、平均ベクトルμqと共分散行列Σqの成分の数である次数は、Dnb+Dwbである。
ンプリング周波数fs[Hz]にダウンサンプリングし、fs_nb_low[Hz]からfs_nb_high[Hz]ま
での狭帯域に帯域制限された狭帯域信号データnb[n]を得る(ステップS101)。この
ようにして、集音信号z[n]と同じように帯域制限された信号群を生成する。なお、図示しないが、上記ダウンサンプリングフィルタや帯域制限処理でアルゴリズム遅延が生じる場合には、狭帯域信号データnb[n]を広帯域信号データwb[n]と同期を合わせる処理を行う。
波数領域変換処理を行い、M次の狭帯域信号データnb[n]のパワースペクトルを得る(ステップS1021)。次に、前述のパワー正規化部321における処理と同様の処理によって、狭帯域信号データnb[n]からフレーム毎にパワー算出を行い、1次のパワー値を得る(ステップS1022)。そして、これらのパワースペクトルとパワー値からM次の狭帯域
信号データnb[n]の正規化されたパワースペクトルを得る(ステップS1023)。そし
て、M次の正規化されたパワースペクトルと1次のパワー値をフレーム単位で次数方向(次元方向)に連結して、次数Dnb(=M+1)の狭帯域特徴量データPnb[f,d](d=1,…,Dnb)を
生成する(ステップS1024)。
理のFFT点数を倍の4M点にして、同様に周波数領域変換処理を行い、2M次の広帯域信号データwb[n]のパワースペクトルを得る(ステップS1031)。次に、前述のパワー正
規化部321における処理と同様の処理によって、広帯域信号データwb[n]からフレーム
毎にパワー算出を行って1次のパワー値を得る。このパワー値を次数Dwb(=1)の広帯域特徴量データPwb[f,d]とする(ステップS1032)。
る(ステップS104)。
図4の説明に戻る。広帯域パワー算出部323には、パワー正規化部321から出力された狭帯域パワー値Pow_N[f]と周囲雑音の正規化したDnb次のパワースペクトル|Nn[f,w]|2 (w=0,1,…M-1)が連結されて、狭帯域特徴量データPn_nb[f](d=1,…,Dnb)として入力
される。また、広帯域パワー算出部323は、辞書格納部322からGMMの辞書λ1q={wi,μq,Σq}(q=1,…,Q)を読み出して、最小平均2乗誤差(MMSE:Minimam Mean Square Error)推定に従って、式(10)に示すように、複数の正規分布モデルによるソフトクラスタリングと連続的な線形回帰によって、周波数帯域が拡張された広帯域に対応する特徴量データへの変換を行い、狭帯域特徴量データPn_nb[f]から広帯域特徴量データである広帯域パワー値N_wb_level[f]を算出して出力する。式(10)は、次元(d=1,…,Dnb+Dwb
)方向のベクトルとして記載している。また、平均ベクトルμq(d=1,…,Dnb+Dwb)は次
元方向で、μq N(d=1,…,Dnb)とμq W(d=Dnb,…,Dnb+Dwb)に分割し、(Dn+Dw)×(Dn+Dw)行列である共分散行列Σqも以下のように、Dn×Dn行列であるΣq NNとDn×Dw行列であるΣq NWとDw×Dn行列であるΣq WNとDw×Dw行列であるΣq WWとに分割する。
周囲雑音情報帯域拡張部32では、広帯域特徴量データと広帯域信号情報は同じであるとしたため、このようにして、狭帯域信号情報である周囲雑音のパワースペクトル|N[f,w]|2から、広帯域信号情報である広帯域パワー値N_wb_level[f]が得られる。
る。
は、周波数領域変換部311と同様の処理によって、入力信号x[n]の周波数スペクトルX[f,w]を出力する。例えば、周波数領域変換部331は、1フレーム前とのオーバーラップのサンプル数をL=96とし、1フレーム前の入力信号Lサンプルと当該フレームの入力信号x[n]の2N=320サンプル分とLサンプル分の零詰めから、4M=512サンプルを用意する。そして、この4Mサンプルに対して正弦波窓による窓関数を乗じることで窓掛けを行った信号に対して、FFTの次数を4MとしてFFTによる周波数領域変換を行う。
式(11)のN0は、通常の利用環境における周囲雑音のパワーを入力信号x[n]と同じサンプリング周波数・同じ帯域制限で事前に測定しておいて設定した周囲雑音の基準パワー値である。このようにすることで、通常の利用環境よりも周囲雑音のパワー値が大きい環境(すなわち、周囲雑音が多く含まれる環境)でも、補正ゲインG[f,w]をその分大きく設定することで、入力信号x[n]を明瞭化することができる。
正度合決定部332から出力された補正ゲインG[f,w] (w=0,1,…2M-1)が入力される。そ
して、式(12)によって入力信号x[n]の周波数スペクトルX[f,w]を補正し、その補正結果である出力信号y[n]の周波数スペクトルY[f,w] (w=0,1,…2M-1)を出力する。
時間領域変換部334は、補正処理部333から出力された周波数スペクトルY[f,w] (w=0,1,…2M-1)に対して時間領域変換(周波数逆変換)を行って、周波数領域変換部33
1における窓掛けを考慮しオーバーラップを戻す処理を適宜行い、補正された信号である出力信号y[n]を算出する。例えば、周波数スペクトルY[f,w] (w=0,1,…2M-1)に対して、
入力信号x[n]が実信号であることを考慮に入れて周波数スペクトルY[f,w]をw=0,1,…4M-1まで復元した上で、4M点のIFFT(Inverse Fast Fourier Transform)を行い、窓掛けを考慮し1フレーム前の補正された信号である出力信号y[n]を用いてオーバーラップを戻し、出力信号y[n]を算出する。
通信装置と異なって近端話者の音声は不要であるため、近端話者の音声を含んだこれら全ての成分を周囲雑音として取り扱う。
でに帯域制限された狭帯域の入力信号をfs_wb_low[Hz]からfs_wb_high[Hz]までの広帯域
の信号に帯域を拡張する処理であって、例えば、特登3189614号公報や特登3243174号公報や特開平9−55778号公報などに記載される既存の技術で実施してよい。
次に、信号処理部にて用いる狭帯域信号情報は周囲雑音のパワースペクトル、広帯域信号情報は周囲雑音を広帯域の信号に拡張した場合のマスキング閾値(広帯域マスキング閾値)である場合を例にして説明する。
雑音の正規化した広帯域のパワースペクトル|Nw[f,w]|2 (w=0,1,…2M-1)をDwb次の広帯域特徴量データとして用いる(Dnb=M、Dwb=2M)。具体的には、周囲雑音情報帯域拡張部3
4は、周囲雑音のパワースペクトル|N[f,w]|2 (w=0,1,…M-1)を入力として、周囲雑音の
パワースペクトル|N[f,w]|2について入力信号x[n]には存在して集音信号z[n]には存在し
ない周波数帯域成分のパワースペクトルを周波数帯域拡張によって生成して、その帯域拡張されたパワースペクトルに対してマスキング閾値を求め、その結果である広帯域マスキング閾値N_wb_th[f,w] (w=0,1,…2M-1)を出力する。
狭帯域特徴量データのセントロイドベクトル、μyqはq番目のコードブックにおける広帯
域特徴量データのセントロイドベクトルを表している。なお、コードブックのコードベクトルの次数は、狭帯域特徴量データのセントロイドベクトルμxqと広帯域特徴量データのセントロイドベクトルμyqの成分の和であるDnb+Dwbである。
前に集音した信号群である。この信号群は、多数の様々な環境、様々な音量であることが望ましい。以下では、コードブックの辞書生成に用いる広帯域信号の信号群をまとめて広帯域信号データwb[n]と表記する。また、nは時刻(サンプル)を表す。
プリングし狭帯域信号データnb[n]を得る(ステップS101)。そして、狭帯域信号デ
ータnb[n]から狭帯域信号情報を表す特徴量データである狭帯域特徴量データPnb[f,d](d=1,…,Dnb)を抽出する(ステップS202)。このステップS202では、狭帯域信号
データnb[n]のパワースペクトル(M次)を得て(ステップS1021)、狭帯域信号データnb[n]のパワー値を得て(ステップS1022)、これらのパワースペクトルとパワー
値から狭帯域信号データnb[n]の正規化されたパワースペクトルを得て(ステップS10
23)、これを次数Dnb(=M)の狭帯域特徴量データPnb[f,d](d=1,…,Dnb)とすること
によって狭帯域特徴量データの抽出を行う。
徴量データPwb[f,d](d=1,…,Dwb)を抽出する(ステップS203)。このステップS203では、広帯域信号データwb[n]のパワースペクトルを得て(ステップS1031)、
広帯域信号データwb[n]から広帯域信号データwb[n]のパワー値をフレーム単位で得て(ステップS2032)、これらのパワースペクトルとパワー値から広帯域信号データwb[n]
の正規化されたパワースペクトルをフレーム単位で得て(ステップS2033)、これを次数Dwb(=2M)の広帯域特徴量データPwb[f,d](d=1,…,Dwb)とすることによって広帯域特徴量データの抽出を行う。
成する(ステップS104)。
よるクラスタリング手法を用いて生成する(ステップS205)。ステップS205では、まず狭帯域セントロイドベクトルμx1を狭帯域特徴量データの全部の平均とし、広帯域セントロイドベクトルμy1を広帯域特徴量データの全部の平均としてサイズQ=1の初期コ
ードブックを生成する(ステップS2051)。そして、コードブックのサイズQが所定
数(ここでは64)に達したかどうかを判定する(ステップS2052)。コードブックのサイズQが所定数に達していなければ、コードブックλ2qの各コードベクトルにおける狭
帯域セントロイドベクトルμxqと広帯域セントロイドベクトルμyqをわずかにずらして別のコードベクトルを生成することでコードブックのサイズQを2倍に増やす処理を行う(
ステップS2053)。そして、次数Dnb+Dwbの連結特徴量データP[f,d]について、コー
ドブックλ2qの各コードベクトルにおける狭帯域セントロイドベクトルμxqとの所定の距離尺度(例えばユークリッド距離やマハラノビス距離)が最小となるコードベクトルを求めて、連結特徴量データP[f,d]をその該当するコードベクトルに割り当てる。その後、コードブックλ2qのコードベクトルごとに割り当てられた連結特徴量データP[f,d]を用いて、コードベクトルごとに新しい狭帯域セントロイドベクトルμxqと広帯域セントロイドベクトルμyqを求めて、コードブックλ2qを更新する(ステップS2054)。コードブックのサイズQが所定数に達していれば、そのコードブックλ2q={μxq,μyq}(q=1,…,Q)
を出力する。
て入力し、辞書格納部342からコードブックの辞書λ2q={μxq,μyq}(q=1,…,Q)を読み出して、Dnb次の狭帯域特徴量データとDwb次の広帯域特徴量データとの対応から広帯域パワースペクトル|Nw[f,w]|2 (w=0,1,…2M-1)を求める。具体的には、Q個ある狭帯域セントロイドベクトルμxq(q=1,…,Q)から、周囲雑音の正規化したパワースペクトル|Nn[f,w]|2 (w=0,1,…M-1)と所定の距離尺度で一番距離が近いものを求めて、一番距離が近いコードベクトルにおける広帯域セントロイドベクトルμyqを広帯域パワースペクトル|Nw[f,w]|2 (w=0,1,…2M-1)とする。
とに周囲雑音のマスキング閾値である広帯域マスキング閾値N_wb_th1[f,w] (w=0,1,…2M-1)を算出する。
3)の式で算出される。周囲雑音の広帯域パワースペクトル|Nw[f,w]|2が広帯域マスキング閾値N_wb_th1[f,w]以下であるならば、周波数ビンω以外の周波数帯域の周囲雑音の広
帯域パワースペクトルによってマスクされる。図11に、横軸を周波数[Hz]、縦軸をパワー[dB]として、屋外など様々な環境で採取した周囲雑音の広帯域マスキング閾値の例を示す。
ここで、bark[w]は周波数ビンωをバーク尺度に変換したバーク値を表し、spreading functionでは、バーク尺度bark[w]に適宜変換する。バーク尺度は、聴覚の分解能を考慮して、低域ほど細かく、高域ほど粗く設定された尺度である。
いる方式を用いるとする。spreading functionは、例えばITU-R1387、3GPP TS 26.403と
いった文献で説明されている他の方式を用いても良い。なお、バーク尺度でなくても、メル尺度、ERB尺度など人間の音の高さの知覚特性や聴覚フィルタから得られた尺度を用いたspreading functionを適宜用いても構わない。
れたN_wb_th1[f,w]を広帯域マスキング閾値N_wb_th[f,w]として出力する。
う明瞭化する信号補正処理を行い、その補正後の出力信号y[n] (n=0,1,…2N-1)を出力す
る。
スペクトル|X[f,w]|2 が入力信号x[n]の広帯域マスキング閾値X_th[f,w]以下であるなら
ば、周波数ビンω以外の周波数帯域の入力信号x[n]のパワースペクトル|X[f,w]|2 によってマスクされることを表す。
マスキング判定部354は、パワー算出部352から出力されたパワースペクトル|X[f,w]|2 (w=0,1,…2M-1)とマスキング閾値算出部353から出力された広帯域マスキング
閾値X_th[f,w]とを入力とし、周波数帯域ごとに入力信号x[n]自身によってマスクされる
か否かを表すマスキング判定情報X_flag[f,w] (w=0,1,…2M-1)を出力する。具体的には、パワースペクトル|X[f,w]|2 と広帯域マスキング閾値X_th[f,w]の大小比較を行い、パワ
ースペクトル|X[f,w]|2 が広帯域マスキング閾値X_th[f,w]以上ならば、その周波数成分
は入力信号x[n]中の他の周波数成分にマスクされないとしてX_flag[f,w]=0とする。また
、パワースペクトル|X[f,w]|2 が広帯域マスキング閾値X_th[f,w]未満ならば、その周波
数成分は入力信号x[n]中の他の周波数成分にマスクされるとしてX_flag[f,w]=1とする
パワー平滑化部355は、パワー算出部352から出力されたパワースペクトル|X[f,w]|2 (w=0,1,…2M-1)とマスキング判定部354から出力されたマスキング判定情報X_flag[f,w]とを入力として、パワースペクトル|X[f,w]|2 を式(15)の式による三角窓による移動平均によって平滑化して、平滑化されたパワースペクトル|XS[f,w]|2 を出力する
。なお、Kは平滑化を計算する範囲であり、αX[j]は、jが0に近いほど係数が大きくな
るようなスムージング係数である。例えば、K=3で、αX[j]は[0.1、0.2、0.4、0.8、0.4、0.2、0.1]とする。
補正度合決定部356は、パワー平滑化部355から出力された平滑化されたパワースペクトル|XS[f,w]|2 (w=0,1,…2M-1)とマスキング判定部354から出力されたマスキン
グ判定情報X_flag[f,w] (w=0,1,…2M-1)と周囲雑音情報帯域拡張部32から出力されたN_wb_th[f,w] (w=0,1,…2M-1)とを入力として、補正ゲインG[f,w] (w=0,1,…2M-1)を算出して出力する。補正ゲインG[f,w]の具体的な算出は、まずマスキング判定情報X_flag[f,w]
により入力信号x[n]中の他の周波数成分にマスクされる(X_flag[f,w]=1)と判定された
周波数帯域であれば、G[f,w]=1とし補正による増幅も減衰も行わないようにする。そして、マスキング判定情報X_flag[f,w]により入力信号x[n]中の他の周波数成分にマスクされ
ない(X_flag[f,w]=0)と判定された周波数帯域について、パワースペクトル|X[f,w]|2
と周囲雑音の広帯域マスキング閾値N_wb_th[f,w]との大小比較を行う。ここで、パワースペクトル|X[f,w]|2 が周囲雑音の広帯域マスキング閾値N_wb_th[f,w]以上ならば、その周波数成分は集音信号z[n]中の他の周波数成分にマスクされないのでG[f,w]=1とし、補正による増幅を行わないようにする。一方で、パワースペクトル|X[f,w]|2 が周囲雑音の広帯域マスキング閾値N_wb_th[f,w]未満ならば、集音信号z[n]中の周囲雑音が少なければ知覚できるにも関わらず、周囲雑音があるためにマスクされていると判断し、式(16)の式のように補正ゲインG[f,w]を周囲雑音の広帯域マスキング閾値N_wb_th[f,w]と平滑化されたパワースペクトル|XS[f,w]|2との比に基づいて算出する。なお、関数Fは、平滑されたパワースペクトル|XS[f,w]|2のスペクトル傾斜を周囲雑音の広帯域マスキング閾値N_wb_th[f,w]の形状と平行に近くなるように増幅するような関数である。ここで、α、βは正の定数であり、γは正負いずれかの定数である。これらの定数は、入力信号x[n]の増幅度合いを調整するために用いられる。
補正度合決定部356において、このように求めた補正ゲインG[f,w]をさらに式(22)の式による三角窓による移動平均によって平滑化して、平滑化された補正ゲインGS[f,w]を用いてもよい。なお、Kは平滑化を計算する範囲であり、αX[j]は、jが0に近いほど係数が大きくなるようなスムージング係数である。例えば、K=3で、αG[j]は[0.1、0.2、0.4、0.8、0.4、0.2、0.1]とする。
以上のように、再生される入力信号と集音信号で、信号成分が存在する周波数帯域が異なっていたり、サンプリング周波数が異なっていたりしていても、集音信号の周波数特性であるパワースペクトルについて入力信号の周波数帯域を加味して帯域拡張して推定することで、集音信号の周波数特性が高精度に求まり、入力信号の明瞭度を向上させることができる。
、例えばf_limit=1000[Hz]とする)以下の低い周波数帯域が拡張されるとき、つまりfs_wb_low < fs_nb_lowかつfs_wb_low < f_limitであるときは、信号特性補正部35でf_limit以下の周波数帯域について信号補正処理をしないようにする。低域(f_limit以下の周波数)においては、集音する環境やノイズ成分の種類によって、周囲雑音のバラツキが大きいため、このようにすることで、信号帯域拡張処理部12において拡張した低い周波数帯域での周囲雑音のバラツキによって信号補正処理が不安定になることを防止できる。
本変形例では、図8に示す信号処理部30にて用いる狭帯域信号情報を周囲雑音のパワースペクトルとし、広帯域信号情報を周囲雑音の広帯域パワースペクトル(周囲雑音を広帯域の信号に拡張した場合のパワースペクトル)とした場合を例にして説明する。この場合、周囲雑音情報帯域拡張部34では、狭帯域信号情報である周囲雑音のパワースペクトルを入力として、狭帯域特徴量データとして周囲雑音の正規化されたパワースペクトルを算出し、広帯域特徴量データである周囲雑音の正規化された広帯域パワースペクトルを事前にモデル化された狭帯域特徴量データと広帯域特徴量データとの対応を用いて算出し、この広帯域特徴量データから広帯域信号情報である周囲雑音の広帯域パワースペクトルを生成するようにする。なお、狭帯域特徴量データと広帯域特徴量データとの対応のモデル化には、図5に示すGMMを利用する手法を用いる。これによれば、再生される入力信号と
集音信号で、信号成分が存在する周波数帯域が異なっていたり、サンプリング周波数が異なっていたりしていても、集音信号の周波数特性であるパワースペクトルについて入力信号の周波数帯域を加味して帯域拡張して推定することで、集音信号の周波数特性が高精度に求まり、入力信号の明瞭度を向上させることができる。
次に、信号処理部にて用いる狭帯域信号情報は周囲雑音のパワースペクトル、広帯域信号情報は周囲雑音を広帯域の信号に拡張した場合のマスキング閾値(広帯域マスキング閾値)である場合を例にして説明する。
て用い、周囲雑音の広帯域マスキング閾値N_wb_th1[f,w](w=0,1,…2M-1)のDwb次の広帯域特徴量データとして用いる(Dnb=MC、Dwb=2M)。具体的には、周囲雑音情報帯域拡張部36は、周囲雑音のパワースペクトル|N[f,w]|2 (w=0,1,…M-1)を入力として、周囲雑音の
マスキング閾値を求め、このマスキング閾値を帯域制限し、帯域制限されたマスキング閾値について入力信号x[n]には存在して集音信号z[n]には存在しない周波数帯域成分を周波数帯域拡張して生成して、この帯域拡張されたマスキング閾値である広帯域マスキング閾値N_wb_th[f,w] (w=0,1,…2M-1)を出力する。
に周囲雑音のマスキング閾値である狭帯域マスキング閾値N_th1[f,w] (w=0,1,…M-1)を算出する。前述した広帯域マスキング閾値算出部344と同様にして、データ長である2MをMで置き換え、周囲雑音の狭帯域マスキング閾値N_th1[f,w] (w=0,1,…M-1)は、spreading functionを関数sprdngf()として、式(19)の式で算出される。狭帯域マスキング閾値N_th1[f,w]は、周囲雑音の正規化したパワースペクトル|Nn[f,w]|2が狭帯域マスキング閾値N_th1[f,w]以下であるならば、周波数ビンω以外の周波数帯域の周囲雑音の正規化したパワースペクトルによってマスクされることを示す。
帯域制御部363は、狭帯域マスキング閾値算出部362から出力された周囲雑音の狭帯域マスキング閾値N_th1[f,w] (w=0,1,…M-1)を入力として、帯域制御する下限周波数limit_low[Hz]から帯域制御する上限周波数limit_high[Hz]までの周波数帯域の信号情報の
みを用いるように制御し、帯域制御された狭帯域マスキング閾値であるN_th[f,w]を出力
する。ただし、fs_nb_low ≦ limit_low < limit_high ≦ fs_nb_high < fs/2とする。例えばlimit_low=1000[Hz]、limit_high=3400[Hz]とするとき、これらの周波数帯域を式(
24)で周波数ビンωに変換して考慮すると、狭帯域マスキング閾値N_th1[f,w] (w=0,1,…M-1)のうちw=32,33,…108のみを用いるようにする。MCをN_th[f,w]の配列の個数とし
て、帯域制御された狭帯域マスキング閾値N_th[f,w] (w=0,1,…MC-1)は、狭帯域マスキング閾値N_th1[f,w] (w=32,…108)そのものを代入する。この場合はMC=108-32+1=77である
。
分散・バラツキが所定の値よりも小さいような周波数帯域の下限に設定することが望ましい。こうすることによって、広帯域マスキング閾値を高精度に求めることができ、入力信号の明瞭度を向上させることができる。
狭帯域特徴量データのセントロイドベクトル、μyqはq番目のコードブックにおける広帯
域特徴量データのセントロイドベクトルを表している。なお、コードブックのコードベクトルの次数は、狭帯域信号情報のセントロイドベクトルμxqと広帯域信号情報のセントロイドベクトルμyqの成分の和であるDnb+Dwbである。
プリングし狭帯域信号データnb[n]を得る(ステップS101)。そして、狭帯域信号デ
ータnb[n]から狭帯域信号情報を表す特徴量データである狭帯域特徴量データPnb[f,d](d=1,…,Dnb)を抽出する(ステップS202)。このステップS202では、狭帯域信号
データnb[n]のパワースペクトル(M次)を得て(ステップS1021)、狭帯域信号データnb[n]のパワー値を得て(ステップS1022)、これらのパワースペクトルとパワー
値から狭帯域信号データnb[n]の正規化されたパワースペクトルを得て(ステップS10
23)、式(23)と同様にして狭帯域信号データnb[n]のマスキング閾値を算出する(
ステップS3024)。そして、狭帯域信号データnb[n]のマスキング閾値に対して、帯
域制御部363での処理と同様に帯域制御する(ステップS3025)。これを次数Dnb
(=MC)の狭帯域特徴量データPnb[f,d](d=1,…,Dnb)とすることによって狭帯域特徴量
データの抽出を行う。
徴量データPwb[f,d](d=1,…,Dwb)を抽出する(ステップS303)。このステップS303では、広帯域信号データwb[n]のパワースペクトル(2M次)を得て(ステップS10
31)、広帯域信号データwb[n]から広帯域信号データwb[n]のパワー値を得て(ステップS2032)、これらのパワースペクトルとパワー値から広帯域信号データwb[n]の正規
化されたパワースペクトルをフレーム単位で得て(ステップS2033)、式(23)の次数をMから2Mにして同様にして広帯域信号データwb[n]のマスキング閾値を算出する(ステップS3034)。これを次数Dwb(=2M)の広帯域特徴量データPwb[f,d](d=1,…,Dwb)とすることによって広帯域特徴量データの抽出を行う。
成する(ステップS104)。
域セントロイドベクトルμxqと広帯域セントロイドベクトルμyqを求め、サイズQ(ここではQ=64)のコードブックをk−meansアルゴリズムやLBGアルゴリズムなどによるクラスタリング手法を用いて生成する(ステップS205)。コードブックの各コードベクトルにおける広帯域セントロイドベクトルμyqである広帯域信号データwb[n]のマス
キング閾値を近似多項式係数で表現して、近似多項式係数を広帯域セントロイドベクトルμ’yqとして辞書に格納して、辞書λ3q={μxq,μ’yq}(q=1,…,Q)を生成する(ステップS307)。近似多項式係数mp(p=0,…,P)とはここでは、縦軸をパワー値X[dB]、横軸を周波数Y[Hz]として、式(20)のようにマスキング閾値を所定の次数(ここではPとし、例えばP=6とする)の多項式で近似した、その多項式の係数のことであり、これ以降
そのように呼ぶ。
このように、マスキング閾値を近似多項式係数で表現して辞書として格納しておくことで、マスキング閾値を辞書として格納しておくよりも、辞書の格納に掛かるメモリ量を削減することができ、辞書の配列の数を小さくなるため辞書の利用時の処理量を削減することができる。
、辞書格納部364からコードブックの辞書λ3q={μxq,μ’yq}(q=1,…,Q)を読み出して、Dnb次の狭帯域特徴量データとDwb次の広帯域特徴量データとの対応から周囲雑音の広帯域マスキング閾値N_wb_th1[f,w](w=0,1,…2M-1)を求める。具体的には、Q個ある狭帯域セントロイドベクトルμxq(q=1,…,Q)から、帯域制御された狭帯域マスキング閾値N_th[f,w] (w=0,1,…MC-1)と所定の距離尺度で一番距離が近いものを求めて、一番距離が近いコードベクトルにおける広帯域セントロイドベクトルμ’yqをそのまま広帯域マスキング閾値の近似多項式係数として設定し、式(20)と同様にして広帯域マスキング閾値N_wb_th1[f,w](w=0,1,…2M-1)を算出する。
帯域fs/2[Hz]前後の周波数において、狭帯域マスキング閾値N_th[f,w]と広帯域マスキン
グ閾値N_wb_th1[f,w]とに不連続性と微分不連続性の両方が生じ、それを解消するように
補正された広帯域マスキング閾値N_wb_th2[f,w]の例を示す。両図共に、実線は狭帯域マ
スキング閾値N_th[f,w]を、破線は広帯域マスキング閾値N_wb_th2[f,w]を、太実線は補正された広帯域マスキング閾値N_wb_th2[f,w]における補正箇所を表す。ただし、adjust_low[Hz] < fs/2 < adjust_high[Hz]とする。ここで、adjust_lowは周波数ビンωL−1に対応する周波数以上で周波数ビンωLに対応する周波数未満であり、adjust_highは周波数ビンωHに対応する周波数以上で周波数ビンωH+1に対応する周波数未満であるとする。例えばfs=8000[Hz]であるとき、adjust_low=3600[Hz]、adjust_high=4400[Hz]とする。具体的には、少なくとも境界帯域fs/2[Hz]前後の周波数において不連続あるいは微分不連続が検出された場合に、adjust_low[Hz]以上かつadjust_high[Hz]以下であるような境界帯域
付近について、周波数ビンωL、ωL+1…、ωL+SとωH、ωH−1…、ωH−Sにおける広帯域マスキング閾値N_wb_th1[f,w]を用いて、周波数ビンωL+S+1からωH−S−1まで
の広帯域マスキング閾値を(2S-1)次関数で模擬し、スプライン補間を行うことで、補正された広帯域マスキング閾値N_wb_th2[f,w]を求める。ここで、狭帯域マスキング閾値N_th1[f,M-1]と広帯域マスキング閾値N_wb_th1[f,M]との中点を通過するように模擬する関数を設定してスプライン補間を行ってもよい。
信号処理部300の辞書格納部364における事前の辞書λ3qの学習生成方法の他の手法について、フローチャートを図17に示し、説明する。ここでは、狭帯域信号データnb[n]を生成しないで広帯域信号データwb[n]のみから辞書λ3qを学習生成する方法について説明する。以下の説明では、上述した変形例2における辞書λ3qの学習生成方法と同じ処理については同じ番号を付番し、説明を簡明にするために必要に応じて重複する説明を省略する。
ータ(ここではマスキング閾値)である広帯域特徴量データPwb[f,d](d=1,…,Dwb)を抽出する。この広帯域特徴量データPwb[f,d](d=1,…,Dwb)のみを用いて、ステップS205でサイズQのコードブックを作成する。そして、コードブックの各コードベクトルにおける広帯域セントロイドベクトルμyqである広帯域信号データwb[n]の広帯域マスキング
閾値に対して、帯域制御する下限周波数limit_low[Hz]から帯域制御する上限周波数limit_high[Hz]までの周波数帯域の広帯域マスキング閾値のみを用いるように制御する(ステ
ップS3025)。これにより狭帯域に帯域制御された狭帯域マスキング閾値が求まり、これをコードブックの各コードベクトルにおける狭帯域セントロイドベクトルμxq(q=1,…,Q)とする(ステップS306)。その後、ステップS307で広帯域信号データwb[n]のマスキング閾値の近似多項式係数である広帯域セントロイドベクトルμ’yqと併せて
辞書に格納して、辞書λ3q={μxq,μ’yq}を生成する。
信号処理部300の辞書格納部364における事前の辞書λ3qの学習生成方法の他の手法について、フローチャートを図18に示し、説明する。以下の説明では、上述した変形例2における辞書λ3qの学習生成方法と同じ処理については同じ番号を付番し、説明を簡明にするために必要に応じて重複する説明を省略する。
ング閾値を式(20)のように近似多項式で表現して、近似多項式係数を狭帯域セントロイドベクトルμ’xq(q=1,…,Q)とする(ステップS306A)。その後、ステップS307で広帯域信号データwb[n]のマスキング閾値の近似多項式係数である広帯域セントロ
イドベクトルμ’yqと併せて辞書に格納して、辞書λ3q={μ’xq,μ’yq}を生成する。
量データとの対応から周囲雑音の広帯域マスキング閾値N_wb_th1[f,w](w=0,1,…2M-1)を
求めるようにする。具体的には、Q個ある狭帯域セントロイドベクトルμ’xq(q=1,…,Q
)の近似多項式から、帯域制御された狭帯域マスキング閾値N_th[f,w] (w=0,1,…MC-1)と所定の距離尺度で一番距離が近いものを近似多項式に代入していくことで求めて、一番距離が近いコードベクトルにおける広帯域セントロイドベクトルμ’yqをそのまま広帯域マスキング閾値の近似多項式係数として設定し、式(20)と同様にして広帯域マスキング閾値N_wb_th1[f,w](w=0,1,…2M-1)を算出する。
図19(a)は、本発明の第2の実施形態に係わる通信装置の構成を示すものである。
変換器4と、スピーカ5と、マイク6と、アナログ・ディジタル(A/D)変換器7と、ダ
ウンサンプリング部8と、エコー抑圧処理部9と、エンコーダ10とを備えている。
抑圧ゲイン算出部371と、スペクトル抑圧部372と、パワー算出部373と、時間領域変換部374とを備える。
抑圧ゲインG[f,w]の算出は、以下のアルゴリズムまたはそれらの組み合わせによって行う。すなわち、一般のノイズキャンセラであるスペクトル・サブトラクション(Spectral Subtraction)法(S. F. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. Acoustics, Speech, and Signal Processing, vol.ASSP-29, pp.113-120 (1979).)、ウィナー・フィルター(Wiener Filter)法(J. S. Lim, A. V. Oppenheim, “Enhancement and bandwidth compression of noisy speech”, Proc. IEEE Vol.67, No.12, pp.1586-1604, Dec.1979.)及び最尤推定(Maximum Likelihood)法(R. J. McAulay, M. L. Malpass, “Speech enhancement using a soft-decision noise suppression filter”, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol.ASSP-28, no.2, pp.137-145, Apr.1980.)などである。ここでは一例としてウィナー・フィルター法を用いて、抑圧ゲインG[f,w]を算出するとする。
を入力として、集音信号z[n]の周波数スペクトルZ[f,w]を集音信号z[n]の振幅スペクトル|Z[f,w]| (w=0,1,…M-1)と位相スペクトルθZ[f,w] (w=0,1,…M-1)に分け、集音信号z[n]の振幅スペクトル|Z[f,w]| に抑圧ゲインG[f,w]を乗じることで周囲雑音であるノイズ成分を抑圧し、その抑圧処理された信号の振幅スペクトル|S[f-1,w]|とし、位相スペクトルθZ[f,w]をそのまま抑圧処理された信号の位相スペクトルθS[f,w]として、抑圧処理された信号の周波数スペクトルS[f,w] (w=0,1,…M-1)を算出する。
する処理(例えば、IFFT)を施し、周波数領域変換部311における窓掛けによるオーバーラップ分を考慮して1フレーム前の抑圧処理された信号s[n]を適宜加算して、抑圧処理された時間領域の信号s[n] (n=0,1,…N-1)を算出する。
タル(A/D)変換器、8…ダウンサンプリング部、9…エコー抑圧処理部、10…エンコ
ーダ、11…記憶部、12…信号帯域拡張処理部、31…周囲雑音推定部、32、34、36…周囲雑音情報帯域拡張部、33、35…信号特性補正部、37…周囲雑音抑圧処理部、311、331…周波数領域変換部、312、352、373…パワー算出部、313…周囲雑音区間判定部、314…周波数スペクトル更新部、321…パワー正規化部、322、342、364…辞書格納部、323…広帯域パワー算出部、332、356…補正度合決定部、333…補正処理部、334、374…時間領域変換部、343…広帯域パワースペクトル算出部、344、365…広帯域マスキング閾値算出部、345…パワー制御部、353…マスキング閾値算出部、354…マスキング判定部、355…パワー平滑化部、362…狭帯域マスキング閾値算出部、363…帯域制御部、366…閾値補正部、371…抑圧ゲイン算出部、372…スペクトル抑圧部。
Claims (5)
- 第1の周波数範囲に帯域制限された入力信号に対して周波数特性を変化させる信号処理装置であって、
前記第1の周波数範囲とは異なる第2の周波数範囲に帯域制限されて集音される目的音及び周囲雑音を含む集音信号のエコー成分を低減するエコー抑圧手段と、
前記エコー抑圧手段によりエコー成分が低減された前記集音信号に含まれる前記周囲雑音を抽出する周囲雑音抽出手段と、
前記周囲雑音抽出手段によって抽出された周囲雑音から前記第2の周波数範囲よりも狭い第3の周波数範囲に制限された周波数特性情報を抽出する情報抽出手段と、
前記情報抽出手段によって抽出された周波数特性情報に対して、前記第1の周波数範囲へ周波数特性情報を周波数方向に拡張する周波数特性情報拡張手段と、
前記周波数特性情報拡張手段によって得られた周波数特性情報に応じて、前記入力信号の周波数特性を変化させる信号補正手段とを備えることを特徴とする信号処理装置。 - 事前に取得した信号の第2の周波数範囲の周波数特性情報と第1の周波数範囲の周波数特性情報とを対応づけて記憶する記憶手段を更に有し、
前記周波数特性情報拡張手段は、前記記憶手段に記憶された第2の周波数範囲の周波数特性情報と第1の周波数範囲の周波数特性情報との対応を用いて周波数特性情報の拡張を行うことを特徴とする請求項1に記載の信号処理装置。 - 前記周波数特性情報拡張手段は、
前記情報抽出手段によって抽出された周波数特性情報から、前記第1の周波数範囲のうち前記第2周波数範囲を除いた第4の周波数範囲における周波数特性情報を推定し、この推定した周波数特性情報と前記情報抽出手段により抽出された前記周波数特性情報とが、前記第2の周波数範囲と前記第4の周波数範囲との境界において連続するように補正を行うことを特徴とする請求項1または請求項2に記載の信号処理装置。 - 前記情報抽出手段によって抽出される周波数特性情報は、周波数ごとのマスキングレベルであることを特徴とする請求項1乃至請求項3のいずれか1項に記載の信号処理装置。
- 前記情報抽出手段によって抽出される周波数ごとのマスキングレベルは、多項式で近似表現されることを特徴とする請求項4に記載の信号処理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009072886A JP5127754B2 (ja) | 2009-03-24 | 2009-03-24 | 信号処理装置 |
US12/559,843 US8515085B2 (en) | 2009-03-24 | 2009-09-15 | Signal processing apparatus |
US13/677,910 US9130526B2 (en) | 2009-03-24 | 2012-11-15 | Signal processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009072886A JP5127754B2 (ja) | 2009-03-24 | 2009-03-24 | 信号処理装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012144135A Division JP5443547B2 (ja) | 2012-06-27 | 2012-06-27 | 信号処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010224321A JP2010224321A (ja) | 2010-10-07 |
JP5127754B2 true JP5127754B2 (ja) | 2013-01-23 |
Family
ID=42784283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009072886A Expired - Fee Related JP5127754B2 (ja) | 2009-03-24 | 2009-03-24 | 信号処理装置 |
Country Status (2)
Country | Link |
---|---|
US (2) | US8515085B2 (ja) |
JP (1) | JP5127754B2 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
US8718290B2 (en) | 2010-01-26 | 2014-05-06 | Audience, Inc. | Adaptive noise reduction using level cues |
US8473287B2 (en) * | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
JP5589631B2 (ja) * | 2010-07-15 | 2014-09-17 | 富士通株式会社 | 音声処理装置、音声処理方法および電話装置 |
JP5641326B2 (ja) * | 2010-12-21 | 2014-12-17 | ソニー株式会社 | コンテンツ再生装置および方法、並びにプログラム |
US9589568B2 (en) | 2011-02-08 | 2017-03-07 | Lg Electronics Inc. | Method and device for bandwidth extension |
JP5085769B1 (ja) * | 2011-06-24 | 2012-11-28 | 株式会社東芝 | 音響制御装置、音響補正装置、及び音響補正方法 |
US9064497B2 (en) * | 2012-02-22 | 2015-06-23 | Htc Corporation | Method and apparatus for audio intelligibility enhancement and computing apparatus |
US9208766B2 (en) | 2012-09-02 | 2015-12-08 | QoSound, Inc. | Computer program product for adaptive audio signal shaping for improved playback in a noisy environment |
US20140270249A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression |
US20140278393A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
JP6539940B2 (ja) * | 2013-12-19 | 2019-07-10 | 株式会社デンソー | 音声認識装置及び音声認識プログラム |
CN104007977A (zh) * | 2014-06-09 | 2014-08-27 | 威盛电子股份有限公司 | 电子装置及音频播放方法 |
US10149047B2 (en) * | 2014-06-18 | 2018-12-04 | Cirrus Logic Inc. | Multi-aural MMSE analysis techniques for clarifying audio signals |
TWI566239B (zh) * | 2015-01-22 | 2017-01-11 | 宏碁股份有限公司 | 語音信號處理裝置及語音信號處理方法 |
TWI566241B (zh) * | 2015-01-23 | 2017-01-11 | 宏碁股份有限公司 | 語音信號處理裝置及語音信號處理方法 |
CN106157966B (zh) * | 2015-04-15 | 2019-08-13 | 宏碁股份有限公司 | 语音信号处理装置及语音信号处理方法 |
US10134416B2 (en) * | 2015-05-11 | 2018-11-20 | Microsoft Technology Licensing, Llc | Privacy-preserving energy-efficient speakers for personal sound |
DK3550858T3 (da) * | 2015-12-30 | 2023-06-12 | Gn Hearing As | Et på hovedet bærbart høreapparat |
EP3457402B1 (en) | 2016-06-24 | 2021-09-15 | Samsung Electronics Co., Ltd. | Noise-adaptive voice signal processing method and terminal device employing said method |
US10008218B2 (en) * | 2016-08-03 | 2018-06-26 | Dolby Laboratories Licensing Corporation | Blind bandwidth extension using K-means and a support vector machine |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06289900A (ja) * | 1993-04-01 | 1994-10-18 | Mitsubishi Electric Corp | オーディオ符号化装置 |
JPH07111527A (ja) * | 1993-10-14 | 1995-04-25 | Hitachi Ltd | 音声の加工方法およびそれを用いた装置 |
JPH0865531A (ja) * | 1994-08-25 | 1996-03-08 | Fujitsu Ltd | 下色除去処理方法 |
JP3284176B2 (ja) * | 1996-10-25 | 2002-05-20 | シャープ株式会社 | オーディオ装置 |
JP4296622B2 (ja) * | 1998-10-26 | 2009-07-15 | ソニー株式会社 | エコー消去装置及び方法、並びに音声再生装置 |
JP2000148161A (ja) * | 1998-11-13 | 2000-05-26 | Matsushita Electric Ind Co Ltd | 自動音質音量制御方法と装置 |
JP2001188599A (ja) * | 1999-10-19 | 2001-07-10 | Matsushita Electric Ind Co Ltd | オーディオ信号復号装置 |
JP2001208609A (ja) * | 2000-01-25 | 2001-08-03 | Toppan Printing Co Ltd | 測色的色表現方法と測色的色表現装置、並びに測色的色表現プログラムを記録したコンピュータ読み取り可能な情報記録媒体 |
JP4018571B2 (ja) | 2003-03-24 | 2007-12-05 | 富士通株式会社 | 音声強調装置 |
US7065206B2 (en) * | 2003-11-20 | 2006-06-20 | Motorola, Inc. | Method and apparatus for adaptive echo and noise control |
JP4533696B2 (ja) * | 2004-08-04 | 2010-09-01 | パイオニア株式会社 | 報知制御装置、報知制御システム、それらの方法、それらのプログラム、および、それらのプログラムを記録した記録媒体 |
JP4765336B2 (ja) * | 2005-02-18 | 2011-09-07 | ソニー株式会社 | 無線通信装置及び無線通信方法 |
JP4602204B2 (ja) | 2005-08-31 | 2010-12-22 | ソニー株式会社 | 音声信号処理装置および音声信号処理方法 |
JP2007150737A (ja) * | 2005-11-28 | 2007-06-14 | Sony Corp | 音声信号ノイズ低減装置及び方法 |
-
2009
- 2009-03-24 JP JP2009072886A patent/JP5127754B2/ja not_active Expired - Fee Related
- 2009-09-15 US US12/559,843 patent/US8515085B2/en not_active Expired - Fee Related
-
2012
- 2012-11-15 US US13/677,910 patent/US9130526B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20130070939A1 (en) | 2013-03-21 |
US20100246849A1 (en) | 2010-09-30 |
JP2010224321A (ja) | 2010-10-07 |
US9130526B2 (en) | 2015-09-08 |
US8515085B2 (en) | 2013-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5127754B2 (ja) | 信号処理装置 | |
JP4818335B2 (ja) | 信号帯域拡張装置 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
KR101461774B1 (ko) | 대역폭 확장기 | |
AU2009278263B2 (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
JP4945586B2 (ja) | 信号帯域拡張装置 | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
JP5528538B2 (ja) | 雑音抑圧装置 | |
JP4660578B2 (ja) | 信号補正装置 | |
JP2013534651A (ja) | 計算聴覚シーン解析に基づくモノラルノイズ抑制 | |
Kumar | Real-time performance evaluation of modified cascaded median-based noise estimation for speech enhancement system | |
JP5148414B2 (ja) | 信号帯域拡張装置 | |
JP5443547B2 (ja) | 信号処理装置 | |
JP2009223210A (ja) | 信号帯域拡張装置および信号帯域拡張方法 | |
Rao et al. | Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
Yang et al. | Environment-Aware Reconfigurable Noise Suppression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110401 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20110401 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110401 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20110512 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120125 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120627 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20120705 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121002 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121030 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151109 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |