JP3384523B2

JP3384523B2 - 音響信号処理方法

Info

Publication number: JP3384523B2
Application number: JP23379996A
Authority: JP
Inventors: 直樹岩上; 和永池田; 健弘守谷; 明夫神
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-09-04
Filing date: 1996-09-04
Publication date: 2003-03-10
Anticipated expiration: 2016-09-04
Also published as: JPH1078797A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明はオーディオ信号、
特に符号化・復号化された音声信号に含まれる雑音感を
低減させる信号処理方法に関する。

【０００２】

【従来の技術】この発明は復号化音響信号以外の音響信
号に適用できるが、復号化音響信号に適用の際の適用個
所の理解のため従来の音響信号変換符号化・復号化法を
図３を参照して説明する。符号化器１０においては、入
力端子１１よりの入力音響信号を、時間−周波数変換部
１２によって周波数領域係数に変換する。この変換の方
法としては、ＭＤＣＴ（Modified Discrete Cosine Tra
nsformation,変形離散コサイン変換）や、ＤＣＴ（Disc
rete Cosine Transformation, 離散コサイン変換），Ｄ
ＦＴ（Discrete Fourier Transformation,離散フーリエ
変換）などを用いることができる。なお、時間−周波数
変換部１２では、前処理として、入力信号サンプル列の
フレーム分割と窓掛けが必要である。フレーム分割は、
ＭＤＣＴの場合入力サンプルがＮ点入力されるごとにこ
れを含む過去２Ｎ点のサンプルを１フレームとして分割
する。ＤＣＴとＤＦＴの場合入力サンプルがＮ点ごとに
これを含む過去Ｎ＋α点のサンプルを１フレームとして
分割する。窓掛けは従来行われている手法により行い、
いずれの変換方法でも、Ｎ点の周波数領域係数が得られ
る。

【０００３】概形計算部１３で周波数領域係数の概形を
抽出する。この概形抽出方法としては、前処理された音
響信号を入力として線形予測分析をする方法、周波数領
域係数を入力としてスケールファクタを計算する方法、
周波数領域係数をリフタリングする方法などを用いるこ
とができる。線形予測分析をする方法では、入力信号を
線形予測分析し、線形予測係数を求め、この係数のスペ
クトル振幅の逆数を周波数特性概形とする。線形予測の
次数は、２０次程度にするのが効果的である。

【０００４】スケールファクタを計算する方法では、周
波数領域係数を複数の小帯域に分割し、小帯域ごとにス
ケールファクタを計算し、これを周波数特性概形とす
る。小帯域に分割する方法は、周波数スケールで等間隔
としてもよいし、バークスケールで等間隔（つまり聴覚
的に等間隔）としてもよい。小帯域の数は３０程度に設
定するのが効果的である。スケールファクタは小帯域内
のサンプルの振幅の平均値でもよいし、振幅の最大値で
もよい。

【０００５】周波数領域係数をリフタリングする方法で
は、周波数領域係数をケプストラム分析し、ケプストラ
ム係数の低次部分のみのスペクトル振幅を周波数特性概
形とする。また、周波数領域係数の概形は、上記の方法
の併用により求めてもよい。たとえば、線形予測分析と
スケールファクタを併用する場合、線形予測分析による
線形予測スペクトルを決定した後、これに掛け合わせた
際に実際の周波数特性にもっとも近い形状になるように
スケールファクタを決定するなどの方法をとる。

【０００６】この周波数特性概形を概形量子化部１４で
量子化して、そのインデックスＩn₁を得る。周波数特性
概形を線形予測分析により求めた場合、線形予測係数を
線スペクトル対（ＬＳＰ）に変換し、これを量子化する
方法が能率がよい。スケールファクタを量子化する場
合、各々のスケールファクタをスカラー量子化してもよ
いし、いくつかのスケールファクタをまとめてベクトル
量子化してもよい。ベクトル量子化をする際、インタリ
ーブベクトル量子化の技術を使うと、能率良く量子化が
可能である。ケプストラム係数を量子化する場合、ケプ
ストラム係数をスカラー量子化してもよいし、ベクトル
量子化してもよい。

【０００７】いずれの方法も、予測量子化を行うとさら
に高い能率が得られる。予測の方法としては、ＡＲ予
測、ＭＡ予測などを用いることができる。複数方法で周
波数特性概形を求めた場合、用いたすべての方法につい
て量子化を行う。量子化した周波数特性概形を概形再生
部１５で復号化し、周波数特性概形を再生する。線スペ
クトル対を量子化した場合、復号化して得られた再生線
スペクトル対を再生線形予測係数に変換し、再生線形予
測係数のスペクトル振幅の逆数を再生周波数特性概形と
する。スケールファクタを量子化した場合、復号化した
再生スケールファクタを再生周波数特性概形とする。ケ
プストラム係数を量子化した場合、復号化された再生ケ
プストラム係数のスペクトル振幅を再生周波数特性概形
とする。

【０００８】平坦化部１６において周波数領域係数を再
生周波数特性概形で平坦化する。ここでは、各々の周波
数領域係数をこれに対応する周波数特性概形で割ること
によって平坦化周波数領域係数（残差周波数係数）が得
られる。この平坦化周波数係数を残差量子化部１７でベ
クトル量子化してインデックスＩn₂を得る。この量子化
方法として、重み付きベクトル量子化による変換符号化
法（ＴＣ−ＷＶＱ，Transform Coding with Weighted V
ector Quantization），周波数領域重み付けインタリー
ブベクトル量子化法（ＴＷＩＮＶＱ，Transform-domain
Weighted Interleave Vector Quantization）などがあ
る。それぞれの技術については、Ｔ．Ｍoriya,Ｈ．Ｓud
a ：“Ａn,８kbit/s transform coder fornoisy channe
ls," Proc.ＩＣＡＳＳＰ '89 pp１９６−１９９および
岩上、守谷、三樹、“周波数領域重みづけインタリーブ
ベクトル量子化（ＴｗｉｎＶＱ）によるオーディオ符号
化、”日本音響学会講演論文集平成６年１０月〜１１
月ｐｐ．３３９−３４０に述べられている。

【０００９】復号化器２０において、量子化された平坦
化された周波数領域係数のインデックスＩn₂を再生部２
１で復号再生する。量子化した周波数特性概形のインデ
ックスＩn₁を再生部２２で復号化し、再生周波数特性概
形を再生する。線スペクトル対を量子化した場合、復号
化して得られた再生線スペクトル対を再生線形予測係数
に変換し、再生線形予測係数のスペクトル振幅の逆数を
再生周波数特性概形とする。スケールファクタを量子化
した場合、復号化した再生スケールファクタを再生周波
数特性概形とする。ケプストラム係数を量子化した場
合、復号化された再生ケプストラム係数のスペクトル振
幅を再生周波数特性概形とする。

【００１０】なお、予測量子化を行った場合、同じ予測
合成を用いて再生を行う。複数方法の量子化を行った場
合、すべての方法について再生を行い、たとえば各々で
再生した概形を互いに掛け合わせるなどの方法により再
生周波数特性概形を得る。再生された平坦化周波数領域
係数を、再生周波数特性概形を用いて逆平坦化部２３で
逆平坦化する。ここでは、各々の再生された平坦化周波
数領域係数と、これに対応する再生周波数特性概形を掛
け合わせることによって逆平坦化が行われ、再生周波数
領域係数が得られる。

【００１１】周波数−時間変換部２４によって再生周波
数領域係数を出力音響信号に変換出力する。変換の方法
としては、ＩＭＤＣＴ（Inverse Modified Discrete Co
sineTransformation, 逆変形離散コサイン変換）や、Ｉ
ＤＣＴ（Inverse DiscreteCosine Transformation,逆
離散コサイン変換）、ＩＤＦＴ（Inverse DiscreteFou
rier Transformation，逆離散フーリエ変換）などを用
いることができる。なお、周波数−時間変換部では、後
処理として、出力信号サンプル列の窓掛けとフレーム結
合が必要である。窓掛けは従来の手法と同様に行う。

【００１２】更に符号化音声の雑音感を低減するために
スペクトルの山谷を強調するポストフィルタ２５に変換
部２４よりの復号化音声信号を入力することが知られて
いる。このポストフィルタ２５の典型としては線形予測
係数αに基づく以下の形式がある。

【００１３】

【数１】ここでμはスペクトルの傾斜を補正する定数で例えば0.
４，γ₁，γ₂はスペクトルの山を強調するための１以
下の正定数で例えばそれぞれ0.５と0.８である。この手
法は畳み込みの処理を必要とするため大きな演算量を必
要とする。また詳細なスペクトル強調処理を行うために
は線形予測の次数を高くする必要があり、演算量と演算
精度の点からも問題がある。

【００１４】

【発明が解決しようとする課題】この発明の目的は、オ
ーディオ信号、特に符号化・復号化された音声信号に含
まれる雑音感を低減させる信号処理方法を小さな演算量
で詳細に実現することを目的とする。

【００１５】

【課題を解決するための手段】この発明では、入力信号
の周波数特性の概形が取り除かれた周波数領域係数と、
そのスペクトルの包絡を求め、そのスペクトル包絡形状
を強調し、その強調されたスペクトル包絡により周波数
領域係数を逆平坦化する。特にスペクトル包絡形状を求
める際バーク尺度（聴覚上で周波数分解能が同一とな
る）の周波数軸で等分解能をもたせるとより高い能率で
処理を行うことができる。

【００１６】雑音感の多い音響信号は、スペクトルの大
小を強調することにより雑音感を低減することができ
る。この発明ではこの処理を周波数領域で行うので、少
ない演算量で詳細な処理が可能である。この発明を変換
符号化方式の復号器に組み込む場合には、この発明の処
理過程の一つである周波数−時間変換処理を共有できる
ので演算量の点で特に有利である。

【００１７】

【発明の実施の形態】図１にこの発明の第１実施例を示
す。この実施例では平坦化された周波数領域係数とスペ
クトル包絡とが端子５１，５２にそれぞれ入力され、端
子５３から時間領域信号を出力とする。平坦化周波数領
域係数は、例えば図３中の符号化器１０で説明したよう
に入力音響信号を時間−周波数変換した後、スペクトル
包絡を用いて平坦化することによって求めてもよいし、
図３中の復号化器２０に示したように変換符号化方法の
復号器において、残差再生部２１より再生された平坦化
周波数領域係数を用いてもよい。時間−周波数変換は、
先に述べたように離散フーリエ変換（Discrete Fourier
Transformation,ＤＣＴ），離散コサイン変換（Discre
te Cosine Transformation, ＤＣＴ），変形離散コサイ
ン変換（Modified Discrete Cosine Transformation,Ｍ
ＤＣＴ）などを用いることができる。これらの変換は、
入力Ｎサンプルごとに行う。Ｎの値は例えば入力信号の
サンプリング周波数が４８kHz の場合５１２ないし４０
９６程度が良好である。

【００１８】スペクトル包絡は変換符号化方法の復号器
において、図３の周波数特性概形再生部２２により再生
されたスペクトル包絡を用いてもよいし、入力音響信号
を時間−周波数変換して周波数領域係数を求め、その周
波数領域係数の概形を求めてもよい。スペクトル包絡の
表現方法として先に述べたように、スケールファクタ、
線形予測スペクトルなどを用いることができる。スケー
ルファクタは、周波数領域係数を複数の周波数バンドご
とにまとめた各バンドごとの代表値である。代表値はバ
ント内の係数の振幅の最大値でもよいし平均値でもよ
い。また各周波数のバンド幅は、線形スケール（Hzスケ
ール）で一定幅でもよいし、非線形スケール（例えばバ
ークスケール）で一定幅としてもよい。特にバークスケ
ールで一定幅とした場合には、聴感的に高能率な処理が
可能である。線形予測スペクトルは、線形予測係数を周
波数分析し、その逆数を求めることにより与えられる。
線形予測係数は入力音響信号を線形予測分析して求めて
もよいし、符号化方法の復号器において、再生された線
形予測係数を用いてもよい。端子５２に入力されたス
ペクトル包絡はスペクトル包絡強調部５４で強調処理が
なされる。この強調処理では、値が大きいときには更に
大きく、値が小さいときには更に小さくすることを行
う。例えば式（２）のような変形を行う。

【００１９】ｗ（ｉ）′＝ｗ₀（ｗ（ｉ）／ｗ₀）^q （２）ここで、ｗ（ｉ）′は変形後のスペクトル包絡、ｗ
（ｉ）は入力スペクトル包絡、ｗ₀は変形の基準値、ｑ
は１以上の定数、例えば２〜４，ｉはスペクトル包絡の
サンプル番号である。基準値ｗ₀は任意に選ぶことがで
きるが、スペクトル包絡の平均値とすると効果的であ
る。また、式（２）の変形を一律に行うのではなく、基
準値ｗ₀よりもスペクトル包絡の値ｗが小さいときのみ
変形を行ってもよい。

【００２０】次に、端子５１に入力された平坦化周波数
領域係数を強調されたスペクトル包絡を用いて逆平坦化
部５５で逆平坦化する。この際、強調されたスペクトル
包絡のサンプル点数は平坦化周波数領域係数のサンプル
点数と一致している必要がある。一致していない場合に
は、補間・間引きなどの処理によりサンプル点数を一致
させる。逆平坦化は次式（３）に従って行う。

【００２１】ｙ（ｊ）＝ｗ（ｊ）′ｘ（ｊ）（３）ただし、ｙは逆平坦化して得られた周波数領域係数、ｘ
は平坦化周波数領域係数、ｊはサンプル番号である。最
後に、逆平坦化して得られた周波数領域係数を変換部５
６で周波数−時間変換して音響信号出力を得る。周波数
−時間変換の方法として、逆離散フーリエ変換（Invers
e Discrete Fourier Transformation,ＩＤＦＴ），逆離
散コサンイン変換（Inverse Discrete Cosine Transfo
rmation,ＩＤＣＴ），逆変形離散コサンイン変換（Inve
rse Modified Discrete Cosine Transformation,ＩＭＤ
ＣＴ）などを用いることができる。

【００２２】図２にこの発明の第２実施例を示す。スペ
クトル包絡強調、逆平坦化の手法は図１に示した第１実
施例と同様である。第１実施例との違いは、複数のスペ
クトル包絡を用い、別々に強調処理を行うことである。
端子６１よりの微細スペクトル包絡は端子６２よりの大
局的スペクトル包絡よりもより細かい。例えばそれぞれ
バークスケール上で等間隔に分割したスケールファクタ
と線形予測スペクトルなどを用いる。どちらのスペクト
ル包絡も第１実施例で述べた種類のスペクトル包絡を用
いることができる。また微細スペクトル包絡として、ピ
ッチ包絡を用いてもよい。ピッチ包絡は、基本周波数の
整数倍ごとに鋭いピークを持つ包絡であり、入力音響信
号を分析して求めてもよいし、符号化方法の復号器にお
いて、再生されたピッチ包絡を用いたり、あるいは再生
されたピッチ情報からピッチ包絡を用いてもよい。

【００２３】大局的スペクトル包絡はスペクトル包絡強
調部６３で第１実施例と同様に強調処理が行われ、また
微細スペクトル包絡もスペクトル包絡強調部６４で同様
に強調処理が行われる。端子５１よりの平坦化周波数領
域係数は逆平坦化部６５でスペクトル包絡強調部６３よ
りの強調処理された大局的スペクトル包絡により逆平坦
化処理がなされ、この逆平坦化された周波数領域係数
は、逆平坦化部６６でスペクトル包絡強調部６４で強調
処理された微細スペクトル包絡により平坦化処理され、
その平坦化処理された周波数領域係数が変換部５６で周
波数−時間変換がなされて出力される。

【００２４】なお、スペクトル包絡強調−逆平坦化の組
み合わせは第２実施例のように２つに限定する必要はな
く、更に多い組み合わせを用意してもよい。

【００２５】

【発明の効果】以上述べたように、この発明によれば周
波数領域で音響信号のスペクトル包絡の強調処理を行
い、スペクトル包絡の強弱を強調することにより、スペ
クトルの谷間に歪みがあるために聞こえる雑音感を低減
することができる。この処理を時間領域でなく周波数領
域で行うことにより、時間領域で必要だった畳み込み演
算を行う必要がなく、詳細な処理でも小さな演算量で行
うことができる。また、この発明を変換符号化方法の復
号器と組み合わせる場合、例えば図３中の逆平坦化部２
３を、この発明の逆平坦化部５３または６５と共有する
ことができ、また周波数−時間変換部５６を図３中の周
波数−時間変換部２４と共有でき、演算量とメモリ規模
の点で特に有利である。

【図面の簡単な説明】

【図１】この発明の第１実施例の機能構成を示すブロッ
ク図。

【図２】この発明の第２実施例の機能構成を示すブロッ
ク図。

【図３】従来の音響信号変換符号化・復号化方法におけ
る機能構成例を示すブロック図。

フロントページの続き (72)発明者神明夫東京都新宿区西新宿三丁目19番２号日本電信電話株式会社内 (56)参考文献特開昭61−286900（ＪＰ，Ａ) 特開平６−318876（ＪＰ，Ａ) 特開平７−107053（ＪＰ，Ａ) 特開平７−248794（ＪＰ，Ａ) 特開平８−110796（ＪＰ，Ａ) 特表昭62−500138（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 13/00 G10L 21/02

Claims

(57)【特許請求の範囲】

【請求項１】フレーム単位に、音響信号の周波数特性
の概形が取り除かれた周波数領域係数を得る第１の段階
と、上記周波数特性の概形を得る第２の段階と、上記周波数特性の概形の各サンプルの値が大きいサンプ
ルは更に値を大きくしてその周波数特性の概形の形状を
強調する第３の段階と、上記第３の段階で得られた強調された周波数特性の概形
を用いて第１の段階で得られた周波数領域係数に周波数
特性を付加して逆平坦化する第４の段階と、を有するこ
とを特徴とする音響信号処理方法。
【請求項２】フレーム単位に、音響信号の周波数特性
の概形が取り除かれた周波数領域係数を得る第１の段階
と、上記周波数特性の概形を得る第２の段階と、上記周波数特性の概形の各サンプルの値が小さいサンプ
ルは更に値を小さくしてその周波数特性の概形の形状を
強調する第３の段階と、上記第３の段階で得られた強調された周波数特性の概形
を用いて第１の段階で得られた周波数領域係数に周波数
特性を付加して逆平坦化する第４の段階と、を有するこ
とを特徴とする音響信号処理方法。
【請求項３】上記第２の段階は、周波数特性の概形と
して、バークスケール上で等間隔の周波数分解能を持つ
スケールファクタを含むことを特徴とする請求項１又は
２記載の音響信号処理方法。