JP4945586B2 - 信号帯域拡張装置 - Google Patents
信号帯域拡張装置 Download PDFInfo
- Publication number
- JP4945586B2 JP4945586B2 JP2009021717A JP2009021717A JP4945586B2 JP 4945586 B2 JP4945586 B2 JP 4945586B2 JP 2009021717 A JP2009021717 A JP 2009021717A JP 2009021717 A JP2009021717 A JP 2009021717A JP 4945586 B2 JP4945586 B2 JP 4945586B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- unit
- band
- frequency
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims abstract description 53
- 230000008859 change Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 164
- 238000004364 calculation method Methods 0.000 claims description 111
- 230000008569 process Effects 0.000 claims description 33
- 230000005236 sound signal Effects 0.000 claims description 23
- 238000009499 grossing Methods 0.000 claims 3
- 238000001228 spectrum Methods 0.000 description 106
- 230000003595 spectral effect Effects 0.000 description 55
- 230000001629 suppression Effects 0.000 description 32
- 238000006243 chemical reaction Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 24
- 230000015572 biosynthetic process Effects 0.000 description 22
- 238000005070 sampling Methods 0.000 description 22
- 238000003786 synthesis reaction Methods 0.000 description 22
- 238000004458 analytical method Methods 0.000 description 21
- 238000003672 processing method Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000013459 approach Methods 0.000 description 10
- 230000009466 transformation Effects 0.000 description 9
- 238000000605 extraction Methods 0.000 description 8
- 230000003321 amplification Effects 0.000 description 6
- 230000003139 buffering effect Effects 0.000 description 6
- 238000003199 nucleic acid amplification method Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 5
- 230000001934 delay Effects 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 239000004606 Fillers/Extenders Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
この発明は上記の問題を解決すべくなされたもので、入力信号に目的信号と非目的信号が混在する場合でも、大きな計算量を必要とすることなく、目的信号に対して原音により忠実に周波数帯域を拡張することが可能な信号帯域拡張装置を提供することを目的とする。
(第1の実施例)
図1(a)は、この発明の一実施形態に係わる通信装置の構成を示すものである。この図に示す通信装置は、例えば携帯電話などの無線通信装置の受信系を示すものであって、無線通信部1と、デコーダ2と、信号帯域拡張部3と、ディジタル・アナログ(D/A)変換器4と、スピーカ5とを備えている。
デコーダ2は、無線通信部1が通信相手局から受信した受信データを、事前に決められた処理単位(1フレーム=Nサンプル)ごとに復号して、ディジタルの入力信号x[n] (n=0,1,…N-1)を得る。ただし、この入力信号x[n]は、サンプリング周波数はfs[Hz]で、fs_nb_low[Hz]からfs_nb_high[Hz]までに帯域制限された狭帯域の信号である。このようにして得られたディジタルの入力信号x[n]は、フレーム単位で信号帯域拡張部3に出力される。
する。このとき、出力信号y[n]のサンプリング周波数はデコーダ2でのサンプリング周波数fs[Hz]のままであるか、あるいはより高いサンプリング周波数fs’[Hz]に変更される。
ムサイズについては、これに限らない。信号帯域拡張部3の具体的な構成例については後に詳述する。
ピーカ5に出力する。スピーカ5は、アナログ信号である出力信号y(t)を音響空間へ出力する。
あるとする。入力信号x[n]には、目的信号である音声信号と、それ以外の非目的信号(ノイズ成分、エコー成分、残響成分、音楽など)が混在しており、すなわち目的信号度合算出部31は、入力された1フレームごとの入力信号x[n]に目的信号である音声信号がどれぐらい含まれているかを示す目的信号度合type[f]を出力する。ここで、目的信号度合type[f]は、例えばSN比を用いるなど入力信号に目的信号が含まれる割合や量を表してもよいし、例えば自己相関を用いるなど入力信号の信号特性と所望される目的信号の信号特性との類似している度合いを表してもよい。
の特徴量を抽出する。ここでは複数の特徴量として、1次自己相関係数Acorr[f,1]、自己相関係数最大値Acorr_max[f]、周波数別SN比総和snr_sum[f]、周波数別SN比分散snr_var[f]を例に挙げて説明する。目的信号度合type[f]を算出する特徴量は、音声信号にお
ける短時間での定常性・周期性や、音声信号におけるパワースペクトルの不均一性・粗密性を利用するなど、入力信号に音声信号がどれぐらい含まれているかを表現するものであれば何でも構わない。
最大値算出部311Bに出力する。
併せて、k=1である1次自己相関係数Acorr[f,1]を重み付け加算部312に出力する。1
次自己相関係数Acorr[f,1]は0から1の値をとり、0に近づくほどノイズ性が強い。つまり、1次自己相関係数Acorr[f,1]の値が小さいほど、入力信号に非目的信号が多く含まれ、目的信号である音声信号が少ないと判断される。
信号は短時間では定常的で周期性があるため1に近づき、0に近づくほど無相関でノイズ性が強い。つまり、自己相関係数最大値Acorr_max[f]の値が小さいほど、入力信号に非目的信号が多く含まれ、目的信号である音声信号が少ないと判断される。
の入力信号のデータ長の比であるオーバーラップは、50%である場合が考えられるが、ここでは、直前のフレームと現在のフレームとのオーバーラップのサンプル数をL=48として、直前のフレームの入力信号Lサンプルと当該フレームの入力信号x[n]のN=160サンプル分とLサンプル分の零詰めから、2M=256サンプルを用意するとする。この2
Mサンプルの信号に対して、正弦波窓による窓関数を乗じることで窓掛けを行う。そして、窓掛けを行った2Mサンプルの信号に対して周波数領域変換を行う。周波数領域への変換は、例えば次数を2MとしたFFT(Fast Fourier Transform)によって行うことができる。なお、周波数領域変換を施す信号に零詰めすることによってデータ長を2のべき乗(2M)にし、周波数領域変換の次数を2のべき乗(2M)にするとしたが、周波数領域変換の次数はこれに限らない。
ωは、周波数ビンを表す。周波数領域変換部311Cは、この周波数スペクトルX[f,w] (w=0,1,…M-1)を出力してもよいし、パワースペクトル|X[f,w]|2 (w=0,1,…M-1)や、振幅スペクトル|X[f,w]| (w=0,1,…M-1)や、位相スペクトルθX[f,w] (w=0,1,…M-1)を出力
してもよい。ここでは、パワースペクトル|X[f,w]|2 (w=0,1,…M-1)を出力するものとする。なお、入力信号x[n]が実信号のとき、冗長なのは本来M-1=127ビンであり、最高域の周波数ビンw=128を考慮するべきである。しかしながら、ここでは入力信号x[n]としてfs_nb_high=3950[Hz]までに帯域制限された音声信号を含むディジタル信号を前提としているため、最高域の周波数ビンw=128を考慮しなくても音質に影響を及ぼさない。そこで、こ
れ以降説明の簡略化のために、最高域の周波数ビンw=128を考慮しない記述にする。勿論
、最高域の周波数ビンw=128を考慮しても構わない。その際、最高域の周波数ビンw=128は、w=127と同等に扱うか、単独で扱うようにする。
、修正離散コサイン変換(MDCT:Modified DCT)、ウォルシュ・アダマール変換(WHT: Walsh Hadamard Transform)、ハーレ変換(HT: Harr Transform)、スラント変換(SLT: Slant Transform)、カルーネン・レーベ変換(KLT: Karhunen Loeve Transform)などの周波数領域に変換する他の直交変換を代用することも可能である。また
、窓掛けに用いる窓関数は、正弦波窓に限定せず、他の対称窓(ハニング窓、ブラックマン窓、ハミング窓など)あるいは音声符号化処理で用いられるような非対称窓などに適宜変更してよい。
ル|X[f,w]|2 (w=0,1,…M-1)を用いて、各周波数帯域の非目的信号のパワースペクトル|N[f,w]|2 (w=0,1,…M-1)を推定して出力する。
毎に入力信号x[n]は非目的信号が支配的に含まれている区間(非目的信号区間)であるか、そうではない区間、つまり目的信号である音声信号と非目的信号が混在している区間(目的信号区間)であるかの判別を行う。以降、当該成分のみしか存在しないか、あるいは当該成分が他の成分よりも非常に多く含まれる場合を「支配的に含まれる」と表現する。
事前に決められた所定の閾値よりも小さい場合には非目的信号区間とし、そうでない場合には目的信号区間と判定するようにする。
トル|N[f-1,w]|2 を用いて再帰的に算出される。式(2)中の忘却係数αN[ω]は、1以
下の係数であって、例えば0.75〜0.95程度である。
周波数別SN比算出部311Eには、周波数領域変換部311Cから出力される入力信号のパワースペクトル|X[f,w]|2と、周波数スペクトル更新部311Dから出力される非
目的信号のパワースペクトル|N[f,w]|2とが入力される。周波数別SN算出部311Eは
、入力信号のパワースペクトル|X[f,w]|2と非目的信号のパワースペクトル|N[f,w]|2との比である各周波数帯域のSN比を算出する。ここでは、各周波数帯域のSN比snr[f,ω]
は、式(3)を用いて算出され、dB表現されるものとする。
周波数別SN比総和算出部311Fには、周波数別SN比算出部311Eから出力される各周波数帯域のSN比snr[f,w] (w=0,1,…M-1)が入力される。周波数別SN比総和算出部311Fは、各周波数帯域のSN比snr[f,w]の和を式(4)で算出し、周波数別SN比総和値snr_sum[f]として出力する。周波数別SN比総和値snr_sum[f]は0以上の値をとり、この値が小さいほど入力信号にノイズ成分などの非目的信号が多く含まれ、目的信号である音声信号が少ないと判断される。
周波数別SN比分散算出部311Gには、周波数別SN比算出部311Eから出力される各周波数帯域のSN比snr[f,w] (w=0,1,…M-1)が入力される。そして、周波数別SN比分散算出部311Gは、各周波数帯域の分散を下式(5)で算出し、周波数別SN比分散値snr_var[f]として出力する。周波数別SN比分散値snr_var[f]は0以上の値をとり、音声信号ではパワースペクトルが均一でなく粗密性があることでこの値が大きくなるため、この値が小さいほど入力信号にノイズ成分などの非目的信号が多く含まれ、目的信号である音声信号が少ないと判断される。
重み付け加算部312は、特徴量抽出部311で抽出された複数の特徴量である、自己相関算出部311Cから出力された1次自己相関係数Acorr[f,1]、自己相関係数最大値
算出部311Dから出力された自己相関係数最大値Acorr_max[f]、周波数別SN比総和算出部311Fから出力される周波数別SN比総和値snr_sum[f]、周波数別SN比分散算出部311Gから出力される周波数別SN比分散値snr_var[f]を用いて、これらにそれぞれ所定の重みによる重み付けを行い、これら複数の特徴量の重み付け和である目的信号度合type[f]を算出する。ここでは、目的信号度合type[f]が小さいほど非目的信号が支配的であるとし、大きいほど目的信号が支配的であるとする。重み付け加算部312は、例えば、重みw1、w2、w3、w4(ただしw1≧0、w2≧0、w3≧0、w4≧0)を線形識別関数による判定を用いた学習アルゴリズムなどで予め学習させておいた値に設定して、目的信号度合type[f]を、type[f] = w1・Acorr[f,1] + w2・Acorr_max[f] + w3・snr_sum[f] + w4・snr_var[f]と算出する。勿論、目的信号度合type[f]は、特徴量の1次の線形和によって表
すことに限定されなく、多次数の線形和で表現されたり、複数の特徴量による乗算項を含んで表現されたりしても構わない。
単位で算出しても構わない。
の特徴量を全て使わなくてもよいし、他の特徴量を追加して用いてもよい。他の特徴量としては、後述する平均零交差数Zi[f]、LPCスペクトル包絡の平均値Vi[f]、フレームパワ
ーCi[f]などを用いてよいし、無線通信部1あるいはデコーダ2から出力されるコーデッ
ク情報、例えば、無音挿入記述子(SID)や音声検出器(VAD)による音声であるか音声でないかを表す音声検出情報や擬似背景雑音を生成したかどうかの情報などを用いてもよい。すなわち、目的信号度合type[f]を算出する特徴量は、入力信号に音声信号が含
まれる割合や量、入力信号が音声信号の信号特性との類似している度合などによって、入力信号に音声信号がどれぐらい含まれているかを表現するものであれば何でも構わない。
して、目的信号度合type[f]に応じて、高域拡張部334と低域拡張部337を動作させ
るか動作させないかを制御する制御信号control[f]を出力する。図4に制御部32の制御動作を示す。このように制御部32では、目的信号である度合が低いほど簡易で低音質な帯域拡張処理方法になるように制御し、目的信号である度合が高いほど高精度で高音質な帯域拡張処理方法になるように制御する。またこのように制御部32では、目的信号である度合が低いほど拡張する周波数帯域の範囲が狭い帯域拡張処理方法になるように制御し、目的信号である度合が高いほど拡張する周波数帯域の範囲が広い帯域拡張処理方法になるように制御する。さらにこのように制御部32では、目的信号である度合が低いほど低域への帯域拡張処理を動作させないように制御し、目的信号である度合が高いほど高域への帯域拡張処理と低域への帯域拡張処理の両方が動作するように制御する。
、目的信号度合type[f]がTHR_A以上である場合は制御信号control[f]=2として高域拡張
部334と低域拡張部337を共に動作させるように制御し、目的信号度合type[f]がTHR_A未満かつTHR_B以上である場合は制御信号control[f]=1として高域拡張部334を動作させ低域拡張部337を動作させないように制御し、目的信号度合type[f]がTHR_B未満である場合は制御信号control[f]=0として高域拡張部334と低域拡張部337を共に動
作させないように制御する。信号帯域拡張処理部33は、制御信号control[f]=2が入力
された場合は、切替器333と切替器335と切替器336と切替器338を閉じて、高域拡張部334と低域拡張部337を共に動作させるようにする。一方、制御信号control[f]=1が入力された場合は、切替器333と切替器335を閉じて、高域拡張部334
を動作させるようにし、切替器336と切替器338を開放して、低域拡張部337を動作させないようにする。また、制御信号control[f]=0が入力された場合は、切替器33
3と切替器335と切替器336と切替器338を開放して、高域拡張部334と低域拡張部337を共に動作させないようにする。
声音などでは制御信号control[f]が頻繁に切り替わることで、帯域拡張の処理方法が頻繁に変更になり異音を生じてしまう可能性がある。従って、以下のような処理を実施することによって、一発話内においてフレーム単位で制御信号control[f]が頻繁に切り替わることを抑制することができる。
あることを更新しやすくしたり、control[f]=0であることを維持しやすくしたりする。同様にして、control_tmp[f]=2の場合、sum_flag2[f] = sum_flag2[f] + 1とし、control_tmp[f]=0またはcontrol_tmp[f]=1の場合、sum_flag2[f] = sum_flag2[f] - 1とする。
し、更新する。なお、番号が少ない方が優先順位が高く、条件が重なった場合は優先順位が高い条件における処理が実行される。
333が開放されることで動作せず、切替器335が開放されることで高域の広帯域信号y_high[n]を出力しない。
ング窓として窓関数を入力信号x[n]に乗じて、データ長2Nの窓掛けを行い、窓掛けを行った入力信号wx[n] (n=0,1,…2N-1)を出力する。なお、1フレーム前の入力信号x[n]は、窓掛け部334Aが備えるメモリを用いて保持する。ここでは、例として、次の時刻(フレーム)での入力信号x[n]のシフト幅(ここではNサンプル)と窓掛けを行った入力信号wx[n]のデータ長(ここでは2Nサンプル)の比であるオーバーラップは50%としている。ただ
し、窓掛けに用いる窓関数は、ハミング窓に限定せず、他の対称窓(ハニング窓、ブラックマン窓、正弦波窓など)あるいは音声符号化処理で用いられるような非対称窓などに適宜変更してよい。またオーバーラップは、50%に限らない。
スペクトル包絡を表す狭帯域スペクトルパラメータとして線スペクトル周波数LSF_NB[f,d](d=1,…,Dnb)を得て、スペクトル包絡広帯域化処理部334Dに出力する。この実施
形態では、狭帯域のスペクトル包絡を表現する狭帯域スペクトルパラメータとして、線スペクトル周波数を用いる場合を例にしているが、狭帯域スペクトルパラメータとして、線形予測(LPC)係数や線スペクトル対(LSP)、PARCOR係数や反射係数、ケプストラム係数、メルケプストラム係数などを用いてもよい。
スペクトル包絡広帯域化処理部334Dは、狭帯域信号のスペクトル包絡を表す狭帯域スペクトルパラメータと広帯域信号のスペクトル包絡を表す広帯域スペクトルパラメータとの対応を事前にモデル化しておき、狭帯域スペクトルパラメータ(ここでは線スペクトル周波数LSF_NB[f,d])を取得し、このスペクトルパラメータを用いて、モデル化してお
いた狭帯域スペクトルパラメータと広帯域スペクトルパラメータとの対応から広帯域スペクトルパラメータ(ここでは線スペクトル周波数LSF_WB[f,d])を求める処理を行う。狭
帯域のスペクトル包絡を表すスペクトルパラメータから広帯域のスペクトル包絡を表すスペクトルパラメータに変換する手法としては、ベクトル量子化(VQ)による符号帳を用いる手法(例えば、吉田, 阿部, ”コードブックマッピングによる狭帯域音声から広帯域音声の生成法”, 信学論(D-II), vol.J78-D-II, No.3, pp.391-399, Mar. 1995.)や、GMMを
用いる手法(例えば、K. Y. Park, H. S. Kim, ”Narrowband to Wideband Conversion of Speech using GMM based Transformation”, Proc. ICASSP2000, vol.3, pp.1843-1846, Jun. 2000.)や、ベクトル量子化(VQ)による符号帳とHMMを用いる手法(例えば、G. Chen, V. Parsa, ”HMM-based Frequency Bandwidth Extension for Speech Enhancement using Line Spectral Frequencies”, Proc. ICASSP2004, vol.1, pp.709-712, 2004.)や、HMMを用いる手法(例えば、S. Yao, C. F. Chan, ”Block-based Bandwidth Extension of Narrowband Speech Signal by using CDHMM”, Proc. ICASSP2005, vol.1, pp.793-796, 2005.)などがあり、どれを用いても構わない。ここでは、例えば前述のGMM(Gaussian mixture model)を利用する手法を用いるとして、線スペクトル周波数変換部334Cで得た狭帯域スペクトルパラメータである線スペクトル周波数LSF_NB[f,d]を、fs_wb_low[Hz]からfs_wb_high[Hz]までに対応する第2の広帯域スペクトルパラメータであるDwb次の
広帯域の線スペクトル周波数LSF_WB[f,d](d=1,…,Dwb)に、事前に線スペクトル周波数LSF_NB[f,d]と線スペクトル周波数LSF_WB[f,d]の対応をモデル化しておいたGMMを利用して変換する。ここでは例えばDwb=18とする。なお、広帯域のスペクトルパラメータであるスペクトル包絡を表す特徴量データは、線スペクトル周波数に限らず、例えばLPC係数、PARCOR係数や反射係数、ケプストラム係数、メルケプストラム係数などでも構わない。
測残差信号e[n]を出力する。
334Gに出力する。
ング周波数fs[Hz]からfs’[Hz]にアップサンプリングし、エイリアシングを除去し、データ長4Nの信号e_us[n]として出力する。
広帯域化処理部334Hは、アップサンプリング部334Gで得たアップサンプリングされたデータ長4Nの線形予測残差信号e_us[n]に非線形処理を施して、少なくとも有声音
では基本周波数の倍音ごとに周波数領域でピークを持つ構造(調波構造)となる広帯域信号に変換する。これによって、広帯域化されたデータ長4Nの線形予測残差信号e_wb[n]が
得られる。
マイナスにした負の平均零交差数Zi[f]を算出する。次に、式(6)に示すように、フレ
ーム単位での入力信号x[n]の2乗和をdB単位で計算し、これをフレームパワーCi[f]とす
る。
また、式(7)に示すように、フレーム単位での1次自己相関係数In[f]を計算する。な
お、前述した目的信号度合算出部31における自己相関算出部311Cから出力されるパワーで正規化した1次自己相関係数Acorr[f,1]をそのままIn[f]として用いてもよい。
そして、狭帯域スペクトルパラメータであるDn次の線形予測係数LPC[f,d]に零詰めしてデータ長を2のべき乗であるMの信号を生成し、次数をMとしたFFTを行う。例えば、M=256とする。wは周波数ビンの番号を表し、0≦w≦M-1とする。FFTの結果、周波数スペク
トルL[f,ω]を得て、周波数スペクトルL[f,ω]の2乗であるパワースペクトル|L[f,ω]|2に対して10を底とする対数を取り−10倍することでLPCによるスペクトル包絡をdB単
位で算出し、基本周波数が存在すると想定される帯域におけるLPCによるスペクトル包絡
の平均値Vi[f]を式(8)に示すように算出する。なお、例えば基本周波数が存在すると
想定される帯域を75[Hz]≦fs・ω/256[Hz]≦325[Hz]とし、つまりVi[f]として2≦ω≦11
の平均を求める。
そして有声/無声推定部334Iは、負の平均零交差数Zi[f]、1次自己相関係数In[f]、LPCスペクトル包絡の平均値Vi[f]に対してそれぞれ適宜重みを付けた線形和にフレームパワーCi[f]を乗じた値をフレーム毎に監視し、所定の閾値を超えた場合に「有声音」であ
ると推定し、所定の閾値を超えない場合に「無声音」と推定し、その推定情報vuv[f]を出力する。
パワー制御部334Jは、アップサンプリング部334Gから出力されたデータ長4Nの信号e_us[n]と有音/無声推定部334Iから出力された1次自己相関係数In[f]に基づいて、広帯域化処理部334Hで得られた広帯域化されたデータ長4Nの信号e_wb[n]を所定
のレベルまで増幅し、e2_wb[n]として信号加算処理部334Mに出力する。具体的には、まずデータ長4Nの信号e_us[n]の2乗和を求め、データ長4Nの信号e_wb[n]の2乗和を求め、信号e_us[n]の2乗和を信号e_wb[n]の2乗和で割って増幅ゲインg1[f]を求める。次に
、有声音である程レベルを増幅させるために、1次自己相関係数In[f]の絶対値が1に近づけば1に近づき、1次自己相関係数In[f]の絶対値が0に近づけば0に近づく増幅ゲインg2[f]を求める。そして、増幅ゲインg1[f]とg2[f]を信号e_wb[n]に乗じることでパワー制御を行う。
して信号加算処理部334Mに出力する。具体的には、まずデータ長4Nの信号e_us[n]の
2乗和を求め、データ長4Nの雑音信号wn[n]の2乗和を求め、信号e_us[n]の2乗和を雑音信号wn[n]の2乗和で割って増幅ゲインg3[f]を求める。次に、無声音である程レベルを増幅させるために、1次自己相関係数In[f]の絶対値が0に近づけば1に近づき、1次自己相
関係数In[f]の絶対値が1に近づけば0に近づく増幅ゲインg4[f]を求める。そして、増幅ゲインg3[f]とg4[f]を雑音信号wn[n]に乗じることでパワー制御を行い、その信号wn2[n]を
出力する。
信号加算処理部334Mは、パワー制御部334Lから出力される雑音信号wn2[n]と、パワー制御部334Jから出力される信号e2_wb[n]とを加算して、データ長4Nの信号e3_wb[n]を広帯域音源信号として信号合成部334Nに出力する。
信号合成部334Nは、スペクトル包絡広帯域化処理部334Dで得た上記広帯域スペクトルパラメータである線スペクトル周波数LSF_WB[f,d](d=1,…,Dwb)に基づいて線ス
ペクトル対LSP_WB[f,d](d=1,…,Dwb)を生成して、信号加算処理部334Mで得た広帯
域音源信号であるデータ長4Nの線形予測残差信号e3_wb[n]にLSP合成フィルタ処理を行い、データ長4Nの広帯域信号y1_high[n]を算出する。
のデータ(データ長2N)と、1フレーム前に信号合成部334Nが出力したデータ長4Nの広帯域信号y1_high[n]の時間的に後半のデータ(データ長2N)とを加算して、データ長2Nの広帯域信号y2_high[n]を算出する。
の広帯域信号y_high[n]として得られる。
替器336が閉じられることで動作し、動作する場合は入力信号x[n]に低域拡張処理を施して、入力信号x[n]の周波数帯域よりも低い周波数帯域を拡張した低域の広帯域信号y_low[n]を生成し、切替器338が閉じられることで低域の広帯域信号y_low[n]を出力する。
掛けを行い、窓掛けを行った入力信号wx_low[n] (n=0,1,…2N-1)を出力する。勿論、wx_low[n]=wx[n] (n=0,1,…2N-1)として、窓掛け部334Aと処理を共通化させてもよい。
狭帯域スペクトルパラメータを同じにして、線形予測分析部334Bと処理を共通化させてもよい。
予測残差信号e_low[n]を得る。勿論、Dn=DnbとしLPC_low[f,d]=LPC[f,d]として、逆フ
ィルタ334Eと処理を共通化させてもよい。
と、1フレーム前に信号合成部337Eが出力したデータ長2Nの広帯域信号y1_low[n]の
時間的に後半のデータ(データ長N)とを加算して、データ長Nの広帯域信号y2_low[n]を
算出する。
の広帯域信号y2_low[n]に対して、拡張したい周波数帯域のみを通過させるフィルタ処理
を施し、これにより通過した信号、すなわち拡張したい周波数帯域の信号をデータ長Nの
広帯域信号y3_low[n]として出力する。つまり、上記帯域通過フィルタ処理により、fs_wb_low[Hz]からfs_nb_low[Hz]までの周波数帯域を通過させて、この周波数帯域の信号が広
帯域信号y3_low[n]として得られる。
アップサンプリング部330は、アップサンプリング部334Gと同様の処理を実施するものであって、データ長Nの入力信号x[n]を、サンプリング周波数fs[Hz]からfs’[Hz]
にアップサンプリングし、エイリアシングを除去し、データ長2Nのx_us[n]として出力す
る。
ることによって遅延させ、x_us[n-D1]として出力することで、高域拡張部334から出力される信号y_high[n]とタイミングを合わせて同期をとる。すなわち、所定の時間(D1サ
ンプル分)は、高域拡張部334での入力から出力が得られるまでの処理遅延の時間D_highから、アップサンプリング部330での入力から出力が得られるまでの処理遅延の時間D_usを引いた分に相当する(D1=D_high−D_us)。この値は、事前に求めておき、D1を常に固定値として用いる。
帯域信号y_low[n]が出力される場合のみ動作をする。
されるデータ長2Nの入力信号x_us[n-D1]と、信号遅延処理部339から出力されるデータ長2Nの広帯域信号y_low[n-D2]と、高域拡張部334から出力されるデータ長2Nの広帯域
信号y_high[n]とを、サンプリング周波数fs’[Hz]で加算して、データ長2Nの広帯域信号y[n]を出力信号として得る。これにより、アップサンプリングされた入力信号x[n-D1]は、広帯域信号y_high[n]と広帯域信号y_low[n]の分だけ帯域拡張されて、fs_wb_low[Hz]からfs_wb_high[Hz]までの帯域に拡張した信号が得られる。制御信号control[f]=1のときは
、信号加算部332は、信号遅延処理部331から出力されるデータ長2Nの入力信号x_us[n-D1]と、高域拡張部334から出力されるデータ長2Nの広帯域信号y_high[n]とを、サ
ンプリング周波数fs’[Hz]で加算して、データ長2Nの広帯域信号y[n]を出力信号として得る。これにより、アップサンプリングされた入力信号x[n-D1]は、広帯域信号y_high[n]の分だけ帯域拡張されて、fs_nb_low[Hz]からfs_wb_high[Hz]までの帯域に拡張した信号が
得られる。制御信号control[f]=0のときは、信号加算部332は、信号遅延処理部33
1から出力されるデータ長2Nの入力信号x_us[n-D1]をそのままデータ長2Nの広帯域信号y[n]として出力信号とする。すなわち、この場合はアップサンプリングされるだけで帯域拡張されない。
信号帯域拡張部3に、図8に示すような非目的信号抑圧部34を追加してもよい。非目的信号抑圧部34は、非目的信号区間判定部341と、非目的信号レベル推定部342と、非目的信号抑圧処理部343とを備える。非目的信号抑圧処理部343は、図9に示すように、周波数領域変換部343Aと、パワー算出部343Bと、パワー算出部343Cと、抑圧ゲイン算出部343Dと、スペクトル抑圧部343Eと、時間領域変換部343Fとを備える。
れた信号x_ns[n]を信号帯域拡張処理部33に入力する。本変形例では、信号帯域拡張処
理部33は入力信号x[n]の代わりに非目的信号成分が抑圧された信号x_ns[n]に対して帯
域拡張し、広帯域信号y[n]を出力信号として得るものである。
出力する。なお、計算量を小さくするために、目的信号度合算出部31の周波数スペクトル更新部311Dから出力される各周波数帯域の非目的信号のパワースペクトル|N[f,w]|2を|N2[f,w]|2として用いてもよい。
…M-1)を算出し出力する。
トル|Xns[f,w]|2 (w=0,1,…M-1)を算出し出力する。
ら出力される1フレーム前の抑圧処理された信号のパワースペクトル|Xns[f-1,w]|2 (w=0,1,…M-1)とを用いて、各周波数帯域の抑圧ゲインG[f,w] (w=0,1,…M-1)を出力する。
とを入力として、入力信号の周波数スペクトルX[f,w]を入力信号の振幅スペクトル|X[f,w]| (w=0,1,…M-1)と位相スペクトルθX[f,w] (w=0,1,…M-1)に分け、入力信号の振幅ス
ペクトル|X[f,w]| に抑圧ゲインG[f,w]を乗じて抑圧処理された信号の振幅スペクトル|Xns[f-1,w]|とし、位相スペクトルθX[f,w]をそのまま抑圧処理された信号の位相スペクト
ルθXns[f,w]として、抑圧処理された信号の周波数スペクトルXns[f,w] (w=0,1,…M-1)
を算出する。
、周波数領域変換部343Aにおける窓掛けによるオーバーラップ分を考慮して1フレーム前の抑圧処理された信号x_ns[n] (n=0,1,…N-1)を加算して、抑圧処理された信号x_ns[n] (n=0,1,…N-1)を算出する。
次に、本発明の第2の実施例について説明する。本実施例の構成は、第1の実施例において図1を用いて説明した構成と同様であるため、説明を省略する。図10は、本実施形態の信号帯域拡張部3の構成を示すものである。なお、以下の説明では、第1の実施例と同じ構成については同じ番号を付番し、説明を簡明にするために必要に応じて重複する説明を省略する。
処理によってサンプリング周波数fs[Hz]からより高いサンプリング周波数fs’[Hz]に変更され、fs_wb_low[Hz]からfs_wb_high[Hz]までの帯域に拡張されるものとする。ただし、fs_wb_low ≦ fs_nb_low < fs_nb_high < fs/2 ≦ fs_wb_high < fs’/2 を満たすものとする。
。また、ここでは1フレームをN=160サンプルとする。ただし、帯域制限の周波数帯域や
サンプリング周波数、フレームサイズについては、これらの値に限らない。
3731、3732、3741、3742、3751、3752が開放されて帯域拡張部371〜375のいずれも動作しない。制御信号control[f]=1のときは、切替器371
1、3712のみが閉じられることで帯域拡張部371のみが動作を行う。制御信号control[f]=2のときは、切替器3721、3722のみが閉じられることで帯域拡張部37
2のみが動作を行う。制御信号control[f]=3のときは、切替器3731、3732のみ
が閉じられることで帯域拡張部373のみが動作を行う。制御信号control[f]=4のとき
は、切替器3741、3742のみが閉じられることで帯域拡張部374のみが動作を行う。制御信号control[f]=5のときは、切替器3751、3752のみが閉じられること
で帯域拡張部375のみが動作を行う。
張部371〜375のいずれも動作をさせないかを制御することにより、目的信号である度合が高いほど高精度で高音質な帯域拡張処理を行うことができる。
域拡張データy_high_buff[n]として信号格納部376に出力し、すべてのサンプルの値を0とした零信号を低域拡張データy_low_buff[n]として信号格納部376に出力する。な
お、これ以降も同様で、信号格納部376へ入力され信号格納部376から出力される信号y_high_buff[n]及びy_low_buff[n]のデータ長は、それぞれ窓掛け部334A及び窓掛
け部337Aでのオーバーラップ分を考慮したデータ長となる。
の時間的に前半のデータ(データ長2N)と信号格納部376に格納されたデータ長2Nの高域拡張データy_high_buff[n](実質的に1フレーム前の信号)を加算してy2_wb1[n]とし
て出力する。これによって、時間方向での信号の平滑化が行われ、信号帯域拡張処理部37での帯域拡張処理の方法を切り替えることによる音の不連続感を解消することができる。
に後半のデータ(データ長2N)を高域拡張データy_high_buff[n]として信号格納部376に出力し、零信号を低域拡張データy_low_buff[n]として信号格納部376に出力する。
長2N)と信号格納部376に格納された高域拡張データy_high_buff[n](実質的に1フレーム前の信号)を加算してy2_wb2[n]として出力する。これによって、時間方向での信号
の平滑化が行われ、信号帯域拡張処理部37での帯域拡張処理の方法を切り替えることによる音の不連続感を解消することができる。
長2N)を高域拡張データy_high_buff[n]として信号格納部376に出力し、零信号を低域拡張データy_low_buff[n]として信号格納部376に出力する。
データ長2N)と信号格納部376に格納された高域拡張データy_high_buff[n](実質的に1フレーム前の信号)を加算してy2_wb3[n]として出力する。これによって、時間方向で
の信号の平滑化が行われ、信号帯域拡張処理部37での帯域拡張処理の方法を切り替えることによる音の不連続感を解消することができる。
らfs_nb_low[Hz]までと、高域であるfs_nb_high[Hz]からfs_wb_high[Hz]までの周波数帯
域が拡張された広帯域信号y_wb4[n]を出力する。また、帯域拡張部374における帯域拡張部373は、動作する度に、信号合成部334Nから出力されるy1_wb4[n]の時間的に
後半のデータ(データ長2N)を高域拡張データy_high_buff[n]として信号格納部376に出力する。
域拡張部374Aは、動作する度に、信号合成部337Eから出力されるy1_low[n]の時
間的に後半のデータ(データ長2N)を低域拡張データy_low_buff[n]として信号格納部3
76に出力する。
時間的に前半のデータ(データ長2N)と信号格納部376に格納された低域拡張データy_low_buff[n](実質的に1フレーム前の信号)を加算してy2_low[n]として出力する。これによって、時間方向での信号の平滑化が行われ、信号帯域拡張処理部37での帯域拡張処理の方法を切り替えることによる音の不連続感を解消することができる。
定の時間(D3サンプル分)だけバッファすることによって遅延させ、y_wb_low[n-D3]として出力することで、帯域拡張部373から出力される信号y_wb3[n]とタイミングを合わせて同期をとる。すなわち、所定の時間(D3サンプル分)は、帯域拡張部373での入力から出力が得られるまでの処理遅延の時間D_high1から、低域拡張部374Aでの入力から
出力が得られるまでの処理遅延の時間D_low1を引いた分に相当する(D3=D_high1−D_low1)この値は、事前に求めておき、D3を常に固定値として用いる。
拡張処理における時間当たりのフレームサイズを小さくして時間分析長を短くするようにすれば、1フレームのサンプル数はどのような値でも構わない。
らfs_nb_low[Hz]までと、高域であるfs_nb_high[Hz]からfs_wb_high[Hz]までの周波数帯
域が拡張された広帯域信号y_wb5[n]を出力する。また、帯域拡張部374と同様に、帯域拡張部375は、動作する度に、信号合成部334Nから出力されるy1_wb4[n]を高域拡
張データy_high_buff[n]として信号格納部376に出力する。
いずれも動作しない場合は、高域拡張データy_high_buff[n]と低域拡張データy_low_buff[n]を両方ともに零信号に設定する。そして、制御信号control[f]が1〜5の中で切り替
わった場合の初めのフレームは、高域拡張データy_high_buff[n]と低域拡張データy_low_buff[n]を、動作している帯域拡張部371〜375のいずれか1つへ適宜出力する。
断して、帯域拡張部371〜375のいずれが動作しても遅延時間が最大の遅延時間D_maxに揃うように事前に設定された遅延時間を信号遅延処理部378によって行われる信号
の遅延時間Dとして設定する。例えば、入力から出力が得られるまでの帯域拡張部371〜375の遅延時間をぞれぞれD21、D22、D23、D24、D25サンプルとしたとき、そのうち
で最大の遅延時間D_maxを求めて、帯域拡張部371が動作した場合はD=D_max−D21、
帯域拡張部372が動作した場合はD=D_max−D22、帯域拡張部373が動作した場合はD=D_max−D23、帯域拡張部374が動作した場合はD=D_max−D24、帯域拡張部375が動作した場合はD=D_max−D25と、遅延時間Dを設定する。これらの値は、事前に求めておき、常に固定値として用いる。このようにすることにより、遅延時間が異なる様々な帯域拡張の処理に切り替わった場合でも、周波数帯域ごとにタイミングが合って同期がとれた信号を生成することができ、また帯域拡張の処理の切り替わり前後で無音や異音を生成することを防ぐことができ、より原音音に忠実な信号を生成することができる。なお、帯域拡張部371〜375のいずれも動作しない場合は、遅延時間設定部377は動作しない。
帯域拡張部371〜375のいずれも動作しない場合は、信号遅延処理部378は動作しない。
広帯域信号をy_wb[n-D]とタイミングを合わせて同期をとる。すなわち、所定の時間(D20サンプル分)は、帯域拡張部371〜375での入力から出力が得られるまでの前述した最大の処理遅延の時間D_maxから、アップサンプリング部330での入力から出力が得ら
れるまでの処理遅延の時間D_usを引いた分に相当する(D20=D_max−D_us)。この値は、事前に求めておき、D20を常に固定値として用いる。
サンプリングされ、信号遅延処理部331Aによって遅延させられた入力信号x_us[n-D20]は、信号加算部332に入力される。そして、信号加算部332は2つの信号を加算処
理し、出力信号y[n]として出力する。
次に、本発明の第3の実施例について説明する。本実施例の構成は、第1の実施例において図1を用いて説明した構成と同様であるため、説明を省略する。図18は、本実施形態の信号帯域拡張部3の構成を示すものである。以下の説明では、上述した実施例と同じ構成については同じ番号を付番し、説明を簡明にするために必要に応じて重複する説明を省略する。
の帯域拡張処理によってサンプリング周波数fs[Hz]からより高いサンプリング周波数fs’[Hz]に変更され、fs_wb_low[Hz]からfs_wb_high[Hz]までの帯域に拡張されるものとする
。以下の説明では、fs_wb_low = fs_nb_low、fs_nb_high < fs_wb_highとして、例えば、fs=22050[Hz]、fs’=44100[Hz]、fs_nb_low=50[Hz]、fs_nb_high=11000[Hz]、fs_wb_low=50[Hz]、fs_wb_high=22000[Hz]とする。帯域制限の周波数帯域やサンプリング周波数については、これに限らない。また、ここでは1フレームをN=1024サンプルとする。
ディオ信号であるとする。入力信号x[n]には、目的信号である音楽信号と、それ以外の非目的信号(ノイズ成分、エコー成分、残響成分、音声など)が混在しており、すなわち目的信号度合算出部38は、入力された1フレームごとの入力信号x[n]に目的信号である音楽信号がどれぐらい含まれているかの目的信号度合type[f]を出力する。目的信号度合type[f]を算出する特徴量は、音声信号における母音などの有声音や子音などの無声音が切り替わる規則性や、音楽信号におけるパワースペクトルの均一性を利用するなど、入力信号に音楽信号がどれぐらい含まれているかを表現するものであれば何でも構わない。
ーム分の平均零交差数Zi[f]を用いて、式(9)に示すように、フレーム毎に平均零交差
数Zi[f]の分散である零交差数分散値Zi_var[f]を算出し、この零交差数分散値Zi_var[f]
を出力する。零交差数分散算出部381Bで用いる過去の平均零交差数Zi[f]のフレーム
数Fは、例えば20とする。平均零交差数分散値zi_var[f]は0以上の値をとり、音声信
号では母音などの有声音や子音などの無声音が切り替わる規則性を有するため、音声信号では零交差数の変動が激しくなり、この値が大きいほど入力信号に音声成分が多くて非目的信号が多く含まれ、目的信号である音楽信号が少ないと判断される。
パワー算出部381Cは、入力信号x[n]から式(10)に示すように、フレーム単位での入力信号x[n]の2乗和をdB単位で計算し、これをフレームパワーCi[f]とする。
パワー分散算出部381Dは、パワー算出部381Cから出力された現在のフレームfのフレームパワーCi[f]が入力され、過去Fフレーム分のフレームパワーCi[f]を用いて、式(11)に示すように、フレーム毎にフレームパワーCi[f]の分散であるパワー分散値Ci_var[f]を出力する。パワー分散値Ci_var[f]は0以上の値をとり、これが大きいほど入
力信号に音声成分が多くて非目的信号が多く含まれ、目的信号である音楽信号が少ないと判断される。
周波数領域変換部381Eは、帯域制限された現在のフレームfの入力信号x[n] (n=0,1,…N-1)が入力され、このフレームと直前の1フレーム前の入力信号の合計2フレームを時間方向に結合したデータ長2Nの入力信号x[n] (n=0,1,…2N-1)に対して、窓関数をハミ
ング窓として窓関数を入力信号に乗じて、データ長2Nの窓掛けを行い、窓掛けを行った入力信号wx[n] (n=0,1,…2N-1)を算出し、FFTの次数を2NとしFFTによる周波数領域変換を行い、周波数スペクトルX[f,w] (w=0,1,…M-1)を算出し、パワースペクトル|X[f,w]|2 (w=0,1,…M-1)を出力する。ただし、wは周波数ビンの番号を表し、w=0,1,…2M-1とす
る。なお、1フレーム前の入力信号は、周波数領域変換部381Eが備えるメモリを用いて保持する。ここでは、例として、次の時刻(フレーム)での入力信号x[n]のシフト幅(ここではNサンプル)と窓掛けを行った入力信号wx[n]のデータ長(ここでは2Nサンプル)の比であるオーバーラップは50%としている。ただし、窓掛けに用いる窓関数は、ハミン
グ窓に限定せず、他の対称窓(ハニング窓、ブラックマン窓、正弦波窓など)あるいは音声符号化処理で用いられるような非対称窓などに適宜変更してよい。またオーバーラップは、50%に限らない。
スペクトル重心分散算出部381Gには、スペクトル重心算出部381Fから出力された現在のフレームfのスペクトル重心sweight[f]が入力される。スペクトル銃身分散算出部381Gは、過去Fフレーム分のスペクトル重心sweight[f]を用いて、式(13)に示すように、フレーム毎にスペクトル重心sweight[f]の分散であるスペクトル重心分散値sweight_var[f]を算出して出力する。スペクトル重心分散値sweight_var[f]は0以上の値をとり、音楽信号ではパワースペクトルが均一で安定しやすくスペクトル重心の変動が小さくなり、この値が大きいほど入力信号に音声成分が多くて非目的信号が多く含まれ、目的信号である音楽信号が少ないと判断される。
スペクトル差分算出部381Hは、周波数領域変換部381Eから出力されるパワースペクトル|X[f,w]|2 と、1フレーム前のパワースペクトル|X[f-1,w]|2 を用いて、式(14)に示すように、パワーで正規化された周波数ビン毎のパワースペクトルの差分の2乗和を計算し、これをスペクトル差分sdiff[f]として出力する。
スペクトル差分分散算出部381Iには、スペクトル差分算出部381Hから出力された現在のフレームfのスペクトル差分sdiff[f]が入力される。スペクトル差分分散算出部381Iは、過去Fフレーム分のスペクトル差分sdiff[f]を用いて、式(15)に示すように、フレーム毎にスペクトル差分sdiff[f]の分散であるスペクトル差分分散値sdiff_var[f]を出力する。スペクトル差分分散値sdiff_var[f]は0以上の値をとり、これが大きいほど音声成分が多くて非目的信号が多く含まれ、目的信号である音楽信号が少ないと判断される。
重み付け加算部382には、特徴量抽出部381で抽出された複数の特徴量(零交差数分散算出部381Bから出力された零交差数分散値Zi_var[f]、パワー分散算出部381
Dから出力されたパワー分散値Ci_var[f]、スペクトル重心分散算出部381Gから出力
されたスペクトル重心分散値sweight_var[f]、スペクトル差分分散算出部381Iから出力されたスペクトル差分分散値sdiff_var[f])が入力される。重み付け加算部382は、入力された複数の特徴量に対してそれぞれ所定の重み付けによる重み付けを行い、複数の特徴量の重み付け和として目的信号度合type[f]を算出する。ここでは、目的信号度合type[f]が小さいほど非目的信号が支配的であるとし、大きいほど目的信号が支配的であるとしているので、例えば、重みw1、w2、w3、w4(ただしw1≦0、w2≦0、w3≦0、w4≦0)を線形識別関数による判定を用いた学習アルゴリズムなどで予め学習させておいた値に設定して、目的信号度合type[f]を、type[f] = w1・Zi_var[f,1] + w2・Ci_var[f] + w3・sweight_var[f] + w4・sdiff_var[f]と算出する。勿論、目的信号度合type[f]は、特徴量
の1次の線形和によって表すことに限定されなく、多次数の線形和で表現されたり、複数の特徴量による乗算項を含んで表現されたりしても構わない。
3921、3922が開放されて帯域拡張部371〜372のいずれも動作しない。制御信号control[f]=1のときは、切替器3911、3912のみが閉じられることで帯域拡
張部371のみが動作を行う。制御信号control[f]=2のときは、切替器3921、39
22のみが閉じられることで帯域拡張部372のみが動作を行う。
76に出力する。
に出力する。
出力された制御信号control[f]に応じて帯域拡張部371〜372のいずれかによって帯域拡張されるのかを判断して、帯域拡張部371〜372のいずれが動作しても遅延時間が最大の遅延時間D_maxに揃うように事前に設定された遅延時間を信号遅延処理部378
によって行われる信号の遅延時間Dとして設定する。例えば、入力から出力が得られるまでの帯域拡張部371〜372の遅延時間をぞれぞれD21、D22サンプルとしたとき、そのうちで最大の遅延時間D_maxを求めて、帯域拡張部371が動作した場合はD=D_max−D21、帯域拡張部372が動作した場合はD=D_max−D22と、遅延時間Dを設定する。なお
、帯域拡張部371〜372のいずれも動作しない場合は、遅延時間設定部377は動作しない。
された所定の時間(Dサンプル分)だけバッファすることによって遅延させ、y_wb[n-D]として出力する。なお、帯域拡張部371〜372のいずれも動作しない場合は、信号遅延処理部378は動作しない。
Claims (8)
- 入力信号に含まれる音声信号に応じて、前記入力信号の周波数帯域を拡張する帯域拡張手段と、
入力信号に音声信号が含まれる割合をSN比と自己相関に基づいて算出する音声信号割合算出手段と、
前記割合が所定の閾値よりも大きいときは第1の方法により周波数帯域に拡張させ、前記割合が前記所定の閾値よりも小さいときは前記第1の方法よりも計算量が少ない第2の方法で周波数帯域を拡張させるよう前記帯域拡張手段を制御する制御手段と、
を有することを特徴とする信号帯域拡張装置。 - 前記制御手段は、前記割合が所定の閾値よりも小さいときは、拡張する周波数帯域の範囲を狭くするように前記帯域拡張手段を制御することを特徴とする請求項1に記載の信号帯域拡張装置。
- 前記制御手段は、前記割合が所定の閾値よりも小さいときは第1の周波数帯域に拡張させ、前記割合が所定の閾値よりも大きいときは第1の周波数帯域よりも広帯域に拡張させるよう前記帯域拡張手段を制御することを特徴とする請求項2に記載の信号帯域拡張装置。
- 前記制御手段は、前記割合が所定の閾値よりも小さいときは高周波数帯域を拡張させ、前記割合が所定の閾値よりも大きいときは高周波数帯域と低周波数帯域を拡張させるように前記帯域拡張手段を制御することを特徴とする請求項1に記載の信号帯域拡張装置。
- 前記制御手段は、前記割合が所定の閾値よりも小さいときは低周波数帯域を拡張させないように前記帯域拡張手段を制御することを特徴とする請求項1に記載の信号帯域拡張装置。
- 前記制御手段は、前記割合が所定の閾値よりも小さいときは、帯域を拡張する処理を行う周波数帯域での処理単位を大きくするように前記帯域拡張手段を制御することを特徴とする請求項1に記載の信号帯域拡張装置。
- 前記所定の閾値は、第1,第2の閾値から構成され、
前記制御手段は、前記割合が第1の閾値よりも小さいときは第1の処理単位で第1の周波数帯域に拡張させ、前記割合が第1の閾値よりも大きく第2の閾値よりも小さいときは第1の処理単位で第1の周波数帯域よりも広帯域な第2の周波数帯域に拡張させ、前記割合が第2の閾値よりも大きいときは第1の処理単位よりも小さい第2の処理単位で第2の周波数帯域に拡張させるよう前記帯域拡張手段を制御することを特徴とする請求項1に記載の信号帯域拡張装置。 - 周波数帯域を拡張した信号を格納しておく信号格納手段と
前記帯域拡張手段によって周波数帯域を拡張した信号を以前に帯域拡張した信号と平滑化する平滑化手段とをさらに有し、
前記平滑化手段は、前記制御手段が周波数帯域を拡張する方法を変化させるよう前記帯域拡張手段を制御したときは、前記信号格納手段に格納された信号を用いて前記帯域拡張手段によって周波数帯域を拡張した信号を平滑化することを特徴とする請求項1乃至請求項7のいずれか1項に記載の信号帯域拡張装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009021717A JP4945586B2 (ja) | 2009-02-02 | 2009-02-02 | 信号帯域拡張装置 |
US12/558,959 US8930184B2 (en) | 2009-02-02 | 2009-09-14 | Signal bandwidth extending apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009021717A JP4945586B2 (ja) | 2009-02-02 | 2009-02-02 | 信号帯域拡張装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010176090A JP2010176090A (ja) | 2010-08-12 |
JP4945586B2 true JP4945586B2 (ja) | 2012-06-06 |
Family
ID=42398432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009021717A Expired - Fee Related JP4945586B2 (ja) | 2009-02-02 | 2009-02-02 | 信号帯域拡張装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8930184B2 (ja) |
JP (1) | JP4945586B2 (ja) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5754899B2 (ja) | 2009-10-07 | 2015-07-29 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
KR101309671B1 (ko) * | 2009-10-21 | 2013-09-23 | 돌비 인터네셔널 에이비 | 결합된 트랜스포저 필터 뱅크에서의 오버샘플링 |
JP5609737B2 (ja) | 2010-04-13 | 2014-10-22 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
JP5850216B2 (ja) | 2010-04-13 | 2016-02-03 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
US12002476B2 (en) * | 2010-07-19 | 2024-06-04 | Dolby International Ab | Processing of audio signals during high frequency reconstruction |
PL3288032T3 (pl) | 2010-07-19 | 2019-08-30 | Dolby International Ab | Przetwarzanie sygnałów audio podczas rekonstrukcji wysokiej częstotliwości |
JP6075743B2 (ja) | 2010-08-03 | 2017-02-08 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
CN103262409B (zh) * | 2010-09-10 | 2016-07-06 | Dts(英属维尔京群岛)有限公司 | 用于改进的感觉的频谱不平衡的音频信号的动态补偿 |
JP5707842B2 (ja) | 2010-10-15 | 2015-04-30 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
CN102610231B (zh) * | 2011-01-24 | 2013-10-09 | 华为技术有限公司 | 一种带宽扩展方法及装置 |
US8717152B2 (en) * | 2011-02-11 | 2014-05-06 | Immersion Corporation | Sound to haptic effect conversion system using waveform |
KR102060208B1 (ko) * | 2011-07-29 | 2019-12-27 | 디티에스 엘엘씨 | 적응적 음성 명료도 처리기 |
CN103516440B (zh) * | 2012-06-29 | 2015-07-08 | 华为技术有限公司 | 语音频信号处理方法和编码装置 |
US9460729B2 (en) | 2012-09-21 | 2016-10-04 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
US8614940B1 (en) * | 2012-11-14 | 2013-12-24 | The Aerospace Corporation | Systems and methods for reducing narrow bandwidth interference contained in broad bandwidth signals |
JP6289507B2 (ja) * | 2013-01-29 | 2018-03-07 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | エネルギー制限演算を用いて周波数増強信号を生成する装置および方法 |
JP6531649B2 (ja) | 2013-09-19 | 2019-06-19 | ソニー株式会社 | 符号化装置および方法、復号化装置および方法、並びにプログラム |
CN104517611B (zh) * | 2013-09-26 | 2016-05-25 | 华为技术有限公司 | 一种高频激励信号预测方法及装置 |
CN105849801B (zh) | 2013-12-27 | 2020-02-14 | 索尼公司 | 解码设备和方法以及程序 |
US9931483B2 (en) * | 2014-05-28 | 2018-04-03 | Devilbiss Healtcare Llc | Detection of periodic breathing during CPAP therapy |
EP2963648A1 (en) | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio processor and method for processing an audio signal using vertical phase correction |
US9628122B1 (en) | 2016-07-25 | 2017-04-18 | The Aerospace Corporation | Circuits and methods for reducing interference that spectrally overlaps a desired signal based on dynamic gain control and/or equalization |
EP3382704A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal |
JP6960766B2 (ja) * | 2017-05-15 | 2021-11-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 雑音抑圧装置、雑音抑圧方法及びプログラム |
US10056675B1 (en) | 2017-08-10 | 2018-08-21 | The Aerospace Corporation | Systems and methods for reducing directional interference based on adaptive excision and beam repositioning |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483878A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
CN115831130A (zh) | 2018-06-29 | 2023-03-21 | 华为技术有限公司 | 立体声信号的编码方法、解码方法、编码装置和解码装置 |
US11212015B2 (en) | 2020-05-19 | 2021-12-28 | The Aerospace Corporation | Interference suppression using machine learning |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002082685A (ja) | 2000-06-26 | 2002-03-22 | Matsushita Electric Ind Co Ltd | 音声帯域拡張装置及び音声帯域拡張方法 |
DE10041512B4 (de) * | 2000-08-24 | 2005-05-04 | Infineon Technologies Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
JP2002162982A (ja) * | 2000-11-24 | 2002-06-07 | Matsushita Electric Ind Co Ltd | 有音無音判定装置及び有音無音判定方法 |
US6889182B2 (en) * | 2001-01-12 | 2005-05-03 | Telefonaktiebolaget L M Ericsson (Publ) | Speech bandwidth extension |
JP3957589B2 (ja) * | 2001-08-23 | 2007-08-15 | 松下電器産業株式会社 | 音声処理装置 |
ATE429698T1 (de) | 2004-09-17 | 2009-05-15 | Harman Becker Automotive Sys | Bandbreitenerweiterung von bandbegrenzten tonsignalen |
JP4395772B2 (ja) * | 2005-06-17 | 2010-01-13 | 日本電気株式会社 | ノイズ除去方法及び装置 |
EP1970900A1 (en) * | 2007-03-14 | 2008-09-17 | Harman Becker Automotive Systems GmbH | Method and apparatus for providing a codebook for bandwidth extension of an acoustic signal |
-
2009
- 2009-02-02 JP JP2009021717A patent/JP4945586B2/ja not_active Expired - Fee Related
- 2009-09-14 US US12/558,959 patent/US8930184B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20100198588A1 (en) | 2010-08-05 |
JP2010176090A (ja) | 2010-08-12 |
US8930184B2 (en) | 2015-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4945586B2 (ja) | 信号帯域拡張装置 | |
JP4892021B2 (ja) | 信号帯域拡張装置 | |
JP4818335B2 (ja) | 信号帯域拡張装置 | |
JP5127754B2 (ja) | 信号処理装置 | |
RU2552184C2 (ru) | Устройство для расширения полосы частот | |
RU2543309C2 (ru) | Устройство, способ и компьютерная программа для того, чтобы управлять аудиосигналом, включающим переходный сигнал | |
US9368103B2 (en) | Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system | |
JP4440937B2 (ja) | 暗騒音存在時の音声を改善するための方法および装置 | |
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
US20080140396A1 (en) | Model-based signal enhancement system | |
JP6896881B2 (ja) | 音響信号のスペクトル強調処理に関する所定の特性を決定するための装置および方法 | |
MX2011001339A (es) | Aparato y metodo para procesar una señal de audio para mejora de habla, utilizando una extraccion de caracteristica. | |
JPH10124088A (ja) | 音声帯域幅拡張装置及び方法 | |
JP5148414B2 (ja) | 信号帯域拡張装置 | |
US20140019125A1 (en) | Low band bandwidth extended | |
Kornagel | Techniques for artificial bandwidth extension of telephone speech | |
WO2018003849A1 (ja) | 音声合成装置および音声合成方法 | |
WO2016137696A1 (en) | Systems and methods for speech restoration | |
JP5443547B2 (ja) | 信号処理装置 | |
JP2009223210A (ja) | 信号帯域拡張装置および信号帯域拡張方法 | |
JPH10149198A (ja) | ノイズ削減装置 | |
CN112201261A (zh) | 基于线性滤波的频带扩展方法、装置及会议终端*** | |
Amini et al. | Speech analysis/synthesis by Gaussian mixture approximation of the speech spectrum for voice conversion | |
Balaji et al. | A Novel DWT Based Speech Enhancement System through Advanced Filtering Approach with Improved Pitch Synchronous Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110401 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20110401 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110401 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20110512 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110801 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120305 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150309 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |