JP5809066B2

JP5809066B2 - 音声符号化装置および音声符号化方法

Info

Publication number: JP5809066B2
Application number: JP2011549936A
Authority: JP
Inventors: ゾンシアンリウ
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2010-01-14
Filing date: 2011-01-13
Publication date: 2015-11-10
Anticipated expiration: 2031-01-13
Also published as: EP2525355A4; US20130030796A1; WO2011086924A1; EP2525355A1; EP2525355B1; JPWO2011086924A1

Description

本発明は、音声符号化装置および音声符号化方法に関する。

音声符号化には、主として２つのタイプの符号化技術として、変換符号化および線形予測符号化が存在する。

変換符号化では、離散フーリエ変換（ＤＦＴ）または修正離散コサイン変換（ＭＤＣＴ）などを使用して、信号を時間領域からスペクトル領域に変換し、スペクトル係数を符号化する。符号化のプロセスにおいては、通常、心理音響モデルを適用してスペクトル係数の聴覚上の重要度を求めた後、スペクトル係数を、それぞれの聴覚上の重要度に従って符号化する。いくつかの一般的な変換符号化は、ＭＰＥＧＭＰ３、ＭＰＥＧＡＡＣ、およびＤｏｌｂｙＡＣ３である。変換符号化は、音楽信号や一般的な音声信号に対して有効である。

図１は変換符号化の構成を示している。

図１の符号化側においては、時間−周波数変換部１０１が、離散フーリエ変換（ＤＦＴ）または修正離散コサイン変換（ＭＤＣＴ）などの時間−周波数変換を使用して、時間領域信号Ｓ（ｎ）を周波数領域信号Ｓ（ｆ）に変換する。

心理音響モデル分析部１０３は、周波数領域信号Ｓ（ｆ）に心理音響モデル分析を行ってマスキング曲線を求める。

符号化部１０２は、心理音響モデル分析から求められたマスキング曲線に従って、周波数領域信号Ｓ（ｆ）に符号化を行って量子化雑音が聞こえないようにする。

多重化部１０４は、符号化部１０２で生成された符号化パラメータを多重化して復号側に送信する。

図１の復号側においては、分離部１０５が、ビットストリーム情報を分離して符号化パラメータを生成する。

復号部１０６は、符号化パラメータを復号し、復号化された周波数領域信号Ｓ^〜（ｆ）を生成する。

周波数−時間変換部１０７は、逆離散フーリエ変換（ＩＤＦＴ）または逆修正離散コサイン変換（ＩＭＤＣＴ）などの周波数−時間変換を使用して、復号化された周波数領域信号Ｓ^〜（ｆ）を時間領域に変換し、復号化された時間領域信号Ｓ^〜（ｎ）を生成する。

一方、線形予測符号化では、時間領域における音声信号の冗長性を利用して、入力音声信号に線形予測を適用することによって、残差／励振信号を得る。音声信号、特に有声区間（共鳴効果と高いピッチ周期成分）の場合、線形予測符号化では、効率的に音響再生信号が生成される。線形予測の後、残差／励振信号を、主として２つの異なる方法、ＴＣＸおよびＣＥＬＰによって符号化する。

ＴＣＸでは、残差／励振信号を周波数領域において効率的に変換および符号化する。いくつかの一般的なＴＣＸ符号化として、３ＧＰＰＡＭＲ−ＷＢ＋，ＭＰＥＧＵＳＡＣ等がある。

図２はＴＣＸ符号化の構成を示している。

図２の符号化側においては、ＬＰＣ分析部２０１が、時間領域における信号の冗長性を利用するため、入力信号にＬＰＣ分析を行う。

符号化部２０２は、ＬＰＣ分析部２０１からのＬＰＣ係数を符号化する。

復号部２０３は、符号化されたＬＰＣ係数を復号する。

逆フィルタ部２０４は、復号部２０３からの復号されたＬＰＣ係数を使用して、入力信号Ｓ（ｎ）にＬＰＣ逆フィルタを適用することによって、残差（励振）信号Ｓ_ｒ（ｎ）を得る。

時間−周波数変換部２０５は、離散フーリエ変換（ＤＦＴ）または修正離散コサイン変換（ＭＤＣＴ）などの時間−周波数変換を使用して、残差信号Ｓ_ｒ（ｎ）を周波数領域信号Ｓ_ｒ（ｆ）に変換する。

符号化部２０６は、Ｓ_ｒ（ｆ）に対して符号化を行う。

多重化部２０７は、符号化部２０２で生成された、符号化されたＬＰＣ係数と、符号化部２０６で生成された符号化パラメータとを多重化し、復号側に送信する。

図２の復号側においては、分離部２０８が、ビットストリーム情報を分離して、符号化されたＬＰＣ係数と符号化パラメータとを生成する。

復号部２１０は、符号化パラメータを復号し、復号化された周波数領域の残差信号Ｓ_ｒ ^〜（ｆ）を生成する。

ＬＰＣ係数復号部２０９は、符号化されたＬＰＣ係数を復号してＬＰＣ係数を得る。

周波数−時間変換部２１１は、逆離散フーリエ変換（ＩＤＦＴ）または逆修正離散コサイン変換（ＩＭＤＣＴ）などの周波数−時間変換を使用して、復号化された周波数領域の残差信号Ｓ_ｒ ^〜（ｆ）を時間領域に変換し、復号化された時間領域の残差信号Ｓ_ｒ ^〜（ｎ）を生成する。

合成フィルタ２１２は、ＬＰＣ係数復号部２０９からの復号されたＬＰＣ係数を用いて、復号化された時間領域の残差信号Ｓ_ｒ ^〜（ｎ）をＬＰＣ合成フィルタリング処理し、復号化された時間領域信号Ｓ^〜（ｎ）を得る。

また、ＣＥＬＰ符号化においては、残差／励振信号を、所定のコードブックを使用して符号化する。音質を向上させる目的で、多くの場合、元の信号とＬＰＣ合成信号との間の誤差信号を周波数領域に変換して符号化する。一般的なＣＥＬＰ符号化として、ＩＴＵ−ＴＧ．７２９．１，ＩＴＵ−ＴＧ．７１８等がある。

図３はＣＥＬＰ符号化と変換符号化とを組み合わせた符号化の構成を示している。

図３の符号化側においては、ＣＥＬＰ符号化部３０１が、時間領域における信号の冗長性を利用するため、入力信号にＣＥＬＰ符号化を行う。

ＣＥＬＰ復号部３０２は、ＣＥＬＰ符号化部３０１で生成されたＣＥＬＰパラメータを使用して合成信号Ｓ_ｓｙｎ（ｎ）を生成する。

減算器３１０は、入力信号から合成信号を減算することによって、誤差信号Ｓ_ｅ（ｎ）（入力信号と合成信号との間の誤差信号）を得る。

時間−周波数変換部３０３は、離散フーリエ変換（ＤＦＴ）または修正離散コサイン変換（ＭＤＣＴ）などの時間−周波数変換を使用して、誤差信号Ｓ_ｅ（ｎ）を周波数領域信号（スペクトル係数）Ｓ_ｅ（ｆ）に変換する。

符号化部３０４は、Ｓ_ｅ（ｆ）を符号化する。

多重化部３０５は、ＣＥＬＰ符号化部３０１で生成されたＣＥＬＰパラメータと、符号化部３０４で生成された符号化パラメータとを多重化して復号側に送信する。

図３の復号側においては、分離部３０６が、ビットストリーム情報を分離して、ＣＥＬＰパラメータと符号化パラメータとを生成する。

復号部３０８は、符号化パラメータを復号し、復号化された周波数領域の残差信号Ｓ_ｅ ^〜（ｆ）を生成する。

ＣＥＬＰ復号部３０７は、ＣＥＬＰパラメータを使用してＣＥＬＰ合成信号Ｓ_ｓｙｎ（ｎ）を生成する。

周波数−時間変換部３０９は、逆離散フーリエ変換（ＩＤＦＴ）または逆修正離散コサイン変換（ＩＭＤＣＴ）などの周波数−時間変換を使用して、復号化された周波数領域の残差信号Ｓ_ｅ ^〜（ｆ）を時間領域に変換し、復号化された時間領域の残差信号（予測誤差信号）Ｓ_ｅ ^〜（ｎ）を生成する。

加算器３１１は、ＣＥＬＰ合成信号Ｓ_ｓｙｎ（ｎ）と、復号化された予測誤差信号Ｓ_ｅ ^〜（ｎ）とを加算することによって、復号化された時間領域信号Ｓ^〜（ｎ）を生成する。

変換符号化および線形予測符号化では、周波数領域の信号、すなわちスペクトル係数（変換係数）に対して、何らかの符号化方法が適用される。

聴覚的に重要なスペクトル係数に限られた符号化ビットを集中させる目的で、変換符号化のスペクトル係数の符号化では、通常、符号化の前に、スペクトル係数の聴覚上の重要度を表す重み付け係数を求めてスペクトル係数の符号化に利用する。

変換符号化においては、人の聴覚系に特有のマスキング現象を利用するため、通常では心理音響モデルに従って聴覚重み付け係数を求める。

一方、線形予測符号化においては、入力信号に対して線形予測が行われるため、心理音響モデルを求めることが容易ではない。そのため、聴覚重み付け係数は、通常ではエネルギ対雑音比または信号対雑音比に基づいて計算する。

以下、変換符号化または線形予測符号化に適用されるスペクトル係数の符号化を、パルスベクトル符号化（pulse vector coding）と呼ぶことにする。

新たに標準化された音声符号化であるＩＴＵ−ＴＧ．７１８の第５レイヤにおいて、パルスベクトル符号化法の１つである階乗パルス符号化（Factorial Pulse Coding）が提案されている（図４）。

階乗パルス符号化は、符号化情報が単位振幅パルス（unit magnitude pulse）であるパルスベクトル符号化の１つである。パルスベクトル符号化では、符号化の対象となるスペクトル係数を複数のパルスで表し、これらのパルスの位置、振幅、および極性を求めて、その情報を符号化する。その際、パルスを単位振幅に正規化するため、グローバルゲインを求め、これも符号化する。よって、図５に示したように、パルスベクトル符号化の符号化パラメータは、グローバルゲイン、パルスの位置、パルスの振幅、およびパルスの極性である。

図６は、パルスベクトル符号化の概念を示している。

図６に示すように、長さがＮである入力スペクトルＳ（ｆ）において、Ｍ個のパルスそれぞれの位置、振幅、および極性と、１つのグローバルゲインとを一緒に符号化する。符号化によって生成されたスペクトルＳ^〜（ｆ）においては、Ｍ個のパルスおよびそれらの位置、振幅、および極性のみが生成されており、それ以外のスペクトル係数はすべて０に設定されている。

従来の変換符号化においては、聴覚上の重要度は、サブバンドに基づいて求められる。一例は、Ｇ．７２９．１におけるＴＤＡＣ（Time Domain Aliasing Cancellation）符号化である。

図７はＧ．７２９．１におけるＴＤＡＣ符号化の構成を示している。

図７において、バンド分割部７０１は、入力信号（スペクトル係数）Ｓ（ｆ）を複数のサブバンドに分割する。ここで、入力信号は、低域部においては原信号とＣＥＬＰ復号信号との間の誤差信号ＭＤＣＴ係数、高域部においては原信号のＭＤＣＴ係数にて構成されている。

スペクトル包絡計算部７０２は、サブバンド信号｛Ｓ_ｓｂ（ｆ）｝それぞれについてスペクトル包絡（サブバンド毎のエネルギ）を計算する。

符号化部７０３は、スペクトル包絡を符号化する。

ビット割当部７０４は、符号化されたスペクトル包絡に従って、聴覚上の重要度の順位｛ｉｐ_ｓｂ｝を求め、サブバンドへのビット割り当てを行う。

ベクトル量子化部７０５は、割り当てられたビットを用いて、分割球ベクトル量子化（split spherical VQ method）を使用して、サブバンド信号｛Ｓ_ｓｂ（ｆ）｝を符号化する。

ITU-T Recommendation G.729.1 (2007) ''G.729-based embedded variable bit-rate coder: An 8-32kbit/s scalable wideband coder bitstream interoperable with G.729'' T. Vaillancourt et al, ''ITU-T EV-VBR: A Robust 8-32 kbit/s Scalable Coder for Error Prone Telecommunication Channels'', in Proc. Eusipco, Lausanne, Switzerland, August 2008 Lefebvre, et al., ''High quality coding of wideband audio signals using transform coded excitation (TCX)'', IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pp. I/193-I/196, Apr. 1994 Karl Heinz Brandenburg, ''MP3 and AAC Explained'', AES 17thInternational Conference, Florence, Italy, September 1999.

ここで、サブバンド単位に聴覚上の重要度を求めることは、上述したパルスベクトル符号化など、特定の符号化方法においては効果的でない。

聴覚上の重要度をサブバンド単位に求めることは、サブバンドに含まれるスペクトル係数の聴覚上の重要度が同じであることを意味する。

一方で、パルス符号化では、個々のスペクトル係数の振幅値に基づいて、全帯域のスペクトルから符号化されるスペクトル係数を選択する。この場合、サブバンド単位に求められる聴覚上の重要度は、個々のスペクトル係数の聴覚上の重要度を正確には表すことができない。

図８に示したように、１つのサブバンドに５つのスペクトル係数Ｓ_ｓｂ（ｆ０）、Ｓ_ｓｂ（ｆ１）、Ｓ_ｓｂ（ｆ２）、Ｓ_ｓｂ（ｆ３）、Ｓ_ｓｂ（ｆ４）が存在するとする。また、符号化方法としてパルスベクトル符号化を使用する。５つのスペクトル係数のうちＳ_ｓｂ（ｆ１）が最大の振幅を有し、このサブバンドに割り当てられる符号化ビットによって１つのパルスを符号化することしかできないならば、Ｓ_ｓｂ（ｆ１）を選択して符号化する。ここで仮に、このサブバンドにおいて聴覚上の重要度を求めて符号化したとしても、Ｓ_ｓｂ（ｆ１）が依然として符号化されてしまう。なぜなら、５つのスペクトル係数すべての聴覚上の重要度レベルが同じであるからである。しかしながら、原信号のマスキング曲線Ｍ（ｆ）を求めると、Ｓ_ｓｂ（ｆ３）がマスキング曲線Ｍ（ｆ）を超えているため、Ｓ_ｓｂ（ｆ３）が聴覚上最も重要なスペクトル係数であることが分かる。したがって、サブバンドに基づいて聴覚上の重要度を求めた場合、聴覚上最も重要なスペクトル係数（この例ではＳ_ｓｂ（ｆ３））が符号化されずに、代わりに別のスペクトル係数（この例ではＳ_ｓｂ（ｆ１））が最も振幅値が大きいため符号化されることになる。

なお、周波数単位でマスキング曲線を求める従来技術は存在するが、符号化ビットの配分や聴感的な重み付け処理はサブバンド単位で行われている。つまり、サブバンド内に含まれるスペクトル係数の聴覚上の重要度の違いは考慮されていない。

本発明の音声符号化装置は、互いに異なる周波数の複数のスペクトル係数それぞれの聴覚上の重要度を推定する推定手段と、推定された各重要度に基づいて、前記複数のスペクトル係数それぞれの重み付け係数を算出する算出手段と、算出された各重み付け係数を用いて、前記複数のスペクトル係数それぞれを重み付けする重み付け手段と、重み付けされた前記複数のスペクトル係数を符号化する符号化手段と、を具備する構成を採る。

また、本発明の音声符号化装置は、少なくとも低位レイヤおよび高位レイヤの２階層よりなる階層符号化を行う音声符号化装置であって、入力信号と前記低位レイヤの復号信号との誤差信号を生成する生成手段と、前記入力信号および前記誤差信号を用いて信号対雑音比を算出し、前記信号対雑音比に基づいて、前記誤差信号における互いに異なる周波数の複数のスペクトル係数それぞれの聴覚上の重要度を推定する推定手段と、推定された各重要度に基づいて、前記複数のスペクトル係数それぞれの重み付け係数を算出する算出手段と、算出された各重み付け係数を用いて、前記複数のスペクトル係数それぞれを重み付けする重み付け手段と、重み付けされた前記複数のスペクトル係数を符号化する符号化手段と、を具備する構成を採る。

また、本発明の音声符号化方法は、互いに異なる周波数の複数のスペクトル係数それぞれの聴覚上の重要度を推定するステップと、推定された各重要度に基づいて、前記複数のスペクトル係数それぞれの重み付け係数を算出するステップと、算出された各重み付け係数を用いて、前記複数のスペクトル係数それぞれを重み付けするステップと、重み付けされた前記複数のスペクトル係数を符号化するステップと、を具備する。

本発明によれば、復号側において良好な音質の復号信号を得ることができる。

変換符号化の構成を示す図（従来）ＴＣＸ符号化の構成を示す図（従来）ＣＥＬＰ符号化と変換符号化とを組み合わせた符号化の構成を示す図（従来）ＩＴＵ−ＴＧ．７１８の階乗パルス符号化の構成を示す図（従来）パルスベクトル符号化の符号化パラメータを示す図（従来）パルスベクトル符号化の概念を示す図（従来）Ｇ．７２９．１におけるＴＤＡＣ符号化の構成を示す図（従来）Ｇ．７２９．１におけるＴＤＡＣ符号化の聴覚上の重要度の計算例を示す図本発明の聴覚上の重要度の計算例を示す図本発明の実施の形態１に係る音声符号化装置の構成を示す図本発明の実施の形態１に係る音声復号装置の構成を示す図本発明の実施の形態１に係る聴覚重み付け部の構成を示す図本発明の実施の形態１において個々のスペクトル係数を聴覚的に重み付けする様子を示す図本発明の実施の形態２に係る音声符号化装置の構成を示す図本発明の実施の形態２に係る音声復号装置の構成を示す図本発明の実施の形態２に係る聴覚重み付け部の構成を示す図本発明の実施の形態２において個々のスペクトル係数を聴覚的に重み付けする様子を示す図本発明の実施の形態３に係る音声符号化装置の構成を示す図本発明の実施の形態３に係る音声復号装置の構成を示す図本発明の実施の形態３に係る聴覚重み付け部の構成を示す図（構成例１）本発明の実施の形態３に係る聴覚重み付け部の構成を示す図（構成例２）本発明の実施の形態３において個々のスペクトル係数を聴覚的に重み付けする様子を示す図

本発明では、サブバンド単位ではなく、個々のスペクトル係数それぞれの聴覚上の重要度を求めて符号化を行う。心理音響モデル分析、信号対雑音比、または聴感に関連したパラメータに基づき求められる聴覚上の重要度に従って、重み付け係数を求めて個々のスペクトル係数に適用する。重み付け係数は、スペクトル係数の聴覚上の重要度が高いほど大きく、聴覚上の重要度が低いほど小さい。よって、聴覚的に重み付けされたスペクトル係数に対して符号化が行われることにより、聴覚的に良好な品質を達成することができる。

本発明では、図９に示したように、マスキング曲線に従って聴覚上の重要度を求める。聴覚上の重要度によると、Ｓ_ｓｂ（ｆ１）は、振幅は最大であるが聴覚上重要ではないことが分かる。そのため、聴覚上の重要度が低いＳ_ｓｂ（ｆ１）には小さい重みが適用されるため、Ｓ_ｓｂ（ｆ１）は抑制される。その結果、聴覚上最も重要であるＳ_ｓｂ（ｆ３）が符号化されるようになる。

本発明の第１の態様においては、個々のスペクトル係数それぞれの聴覚上の重要度を求め、聴覚上の重要度に従って重み付け係数を求めてスペクトル係数それぞれに適用し、聴覚的に重み付けされたスペクトル係数に対して符号化を行う。

これにより、聴覚重み付け係数は、個々のスペクトル係数それぞれについて求められるため、より正確であり、したがって、聴覚上最も重要であるスペクトル係数を選択して符号化することができ、より良好な符号化性能（音質の向上）を達成することができる。

本発明の第２の態様においては、聴覚重み付け係数の適用を符号化側にてのみ行う。つまり、復号側ではこれに対応する逆重み付け処理は行わない。

これにより、聴覚重み付け係数を復号側に送信する必要がない。そのため、聴覚重み付け係数を符号化するためのビットを節約することができる。

本発明の第３の態様においては、階層符号化（スケーラブル符号化）では、各レイヤにおいて、誤差信号の聴覚上の重要度を更新する。各レイヤにおいて、聴覚上の重要度に従って重みを計算し、符号化するスペクトル係数それぞれに適用する。

これにより、各符号化ステップまたは各レイヤにおいて、信号がその聴覚上の重要度に従って符号化され、したがって、各符号化ステップまたは各レイヤにおいて、より良好な聴覚上の品質（音質の向上）を達成することができる。

以下、本発明の各実施の形態について図面を用いて説明する。

（実施の形態１）
図１０Ａに本実施の形態に係る音声符号化装置１０００Ａの構成を示す。また、図１０Ｂに本実施の形態に係る音声復号装置１０００Ｂの構成を示す。

本実施の形態では、パルスベクトル符号化において、個々のスペクトル係数を聴覚的に重み付けする。

音声符号化装置１０００Ａ（図１０Ａ）において、時間−周波数変換部１００１は、離散フーリエ変換（ＤＦＴ）または修正離散コサイン変換（ＭＤＣＴ）などの時間−周波数変換を使用して、時間領域信号Ｓ（ｎ）を周波数領域信号（スペクトル係数）Ｓ（ｆ）に変換する。

心理音響モデル分析部１００２は、周波数領域信号Ｓ（ｆ）に対して心理音響モデル分析を行ってマスキング曲線を求める。

聴覚重み付け部１００３は、マスキング曲線に基づいて聴覚上の重要度を推定し、個々のスペクトル係数それぞれの重み付け係数を求めてスペクトル係数に適用する。

符号化部１００４は、聴覚的に重み付けされた周波数領域信号Ｓ_ＰＷ（ｆ）を符号化する。

多重化部１００５は、符号化パラメータを多重化して音声復号装置１０００Ｂ（図１０Ｂ）に送信する。

音声復号装置１０００Ｂ（図１０Ｂ）において、分離部１００６は、ビットストリーム情報を分離して符号化パラメータを生成する。

復号部１００７は、符号化パラメータを復号し、復号化された周波数領域信号Ｓ^〜（ｆ）を生成する。

周波数−時間変換部１００８は、逆離散フーリエ変換（ＩＤＦＴ）または逆修正離散コサイン変換（ＩＭＤＣＴ）などの周波数−時間変換を使用して、復号化された周波数領域信号Ｓ^〜（ｆ）を時間領域に変換し、復号化された時間領域信号Ｓ^〜（ｎ）を生成する。

図１１に本実施の形態に係る聴覚重み付け部１００３の構成を示す。図１１には、個々のスペクトル係数を聴覚的に重み付けするための構成を示している。

聴覚重み付け部１００３において、推定部１１０１は、マスキング曲線Ｍ（ｆ）に従って、スペクトル係数それぞれの聴覚上の重要度ｐｉ（ｆ）を推定する。聴覚上の重要度ｐｉ（ｆ）は、スペクトル係数がどの程度聴感的に重要かを定量的に示すパラメータである。聴覚上の重要度ｐｉ（ｆ）が大きい値を示すほど、そのスペクトル係数は聴感的に重要である。聴覚上の重要度ｐｉ（ｆ）はマスキング曲線Ｍ（ｆ）とスペクトル係数のエネルギに基づいて算出される。その算出は対数領域で行われても良く、例えば、次式に従い聴覚上の重要度ｐｉ（ｆ）が算出される。

重み係数算出部１１０２は、聴覚上の重要度ｐｉ（ｆ）に基づいて重み付け係数Ｗ（ｆ）を算出する。重み付け係数Ｗ（ｆ）はスペクトル係数Ｓ（ｆ）に重み付けを行うためのものである。聴覚上の重要度ｐｉ（ｆ）が大きい値を示すほど、重み付け係数Ｗ（ｆ）は大きい値となり、例えば次式のように求められる。

重み付け部１１０３は、重み付け係数Ｗ（ｆ）をスペクトル係数Ｓ（ｆ）に乗じ、聴覚的に重み付けされたスペクトル係数Ｓ_ＰＷ（ｆ）を生成する。よって、スペクトル係数Ｓ_ＰＷ（ｆ）は次式のようになる。

図１２に、個々のスペクトル係数を聴覚的に重み付けする様子を示す。

図１２に示すように、スペクトル係数Ｓ（ｆ０）およびＳ（ｆ４）のエネルギはマスキング曲線Ｍ（ｆ０）およびＭ（ｆ１）よりも下回っている。したがって、これら２つのスペクトル係数に乗じられる重み付け係数Ｗ（ｆ０）およびＷ（ｆ４）は１未満の値となるため、スペクトル係数Ｓ（ｆ０）およびＳ（ｆ４）のエネルギは抑制される。

一例として、聴覚上の重要度ｐｉ（ｆ）および重み付け係数Ｗ（ｆ）が上記のように算出される場合に、聴覚的に重み付けされたスペクトル係数Ｓ_ＰＷ（ｆ０）およびＳ_ＰＷ（ｆ４）は以下のように表され、スペクトル係数Ｓ（ｆ０）およびＳ（ｆ４）よりも小さくなることが分かる。

このように、本実施の形態によれば、パルスベクトル符号化において、個々のスペクトル係数それぞれの聴覚上の重要度を求め、聴覚上の重要度に従って重み付け係数を求めてスペクトル係数それぞれに適用し、聴覚的に重み付けされたスペクトル係数に対して符号化を行う。

これにより、聴感的な重み付け処理をサブバンド単位で行う場合に比べ、聴覚重み付け係数は、個々のスペクトル係数それぞれについて、より正確に求めることができる。したがって、聴覚上最も重要であるスペクトル係数を選択して符号化することができるようになり、より良好な符号化性能を達成することができる。

また、本実施の形態によれば、聴覚重み付け係数の適用を符号化側（音声符号化装置１０００Ａ）にてのみ行う。つまり、復号側（音声復号装置１０００Ｂ）ではこれに対応する逆重み付け処理は行わない。

（実施の形態２）
図１３Ａに本実施の形態に係る音声符号化装置１３００Ａの構成を示す。また、図１３Ｂに本実施の形態に係る音声復号装置１３００Ｂの構成を示す。

本実施の形態では、ＴＣＸ符号化において、個々のスペクトル係数を聴覚的に重み付けする。

音声符号化装置１３００Ａ（図１３Ａ）において、ＬＰＣ分析部１３０１は、時間領域における信号の冗長性を利用するため、入力信号にＬＰＣ分析を行う。

符号化部１３０２は、ＬＰＣ分析部１３０１からのＬＰＣ係数を符号化する。

復号部１３０３は、符号化されたＬＰＣ係数を復号する。

逆フィルタ部１３０４は、復号部１３０３からの復号されたＬＰＣ係数を使用して、入力信号Ｓ（ｎ）にＬＰＣ逆フィルタを適用することによって、残差（励振）信号Ｓ_ｒ（ｎ）を得る。

時間−周波数変換部１３０５は、離散フーリエ変換（ＤＦＴ）または修正離散コサイン変換（ＭＤＣＴ）などの時間−周波数変換を使用して、残差信号Ｓ_ｒ（ｎ）を周波数領域信号（スペクトル係数）Ｓ_ｒ（ｆ）に変換する。

時間−周波数変換部１３０６は、離散フーリエ変換（ＤＦＴ）または修正離散コサイン変換（ＭＤＣＴ）などの時間−周波数変換を使用して、原信号Ｓ（ｎ）を周波数領域信号（スペクトル係数）Ｓ（ｆ）に変換する。

聴覚重み付け部１３０７は、周波数領域信号Ｓ（ｆ）に心理音響モデル分析を行ってマスキング曲線を求める。また、聴覚重み付け部１３０７は、マスキング曲線に基づいて聴覚上の重要度を推定し、個々のスペクトル係数それぞれの重み付け係数を求めてスペクトル係数に適用する。

符号化部１３０８は、聴覚的に重み付けされた残差信号Ｓ_ｒ＿ＰＷ（ｆ）を符号化する。

多重化部１３０９は、符号化パラメータを多重化し、復号側に送信する。

音声復号装置１３００Ｂ（図１３Ｂ）において、分離部１３１０は、ビットストリーム情報を分離して符号化パラメータを生成する。

復号部１３１１は、符号化パラメータを復号し、復号化された周波数領域の残差信号Ｓ_ｒ ^〜 _＿ＰＷ（ｆ）を生成する。

ＬＰＣ係数復号部１３１３は、ＬＰＣ係数を復号する。

周波数−時間変換部１３１２は、逆離散フーリエ変換（ＩＤＦＴ）または逆修正離散コサイン変換（ＩＭＤＣＴ）などの周波数−時間変換を使用して、復号化された周波数領域の残差信号Ｓ_ｒ ^〜 _＿ＰＷ（ｆ）を時間領域に変換し、復号化された時間領域の残差信号Ｓ_ｒ ^〜（ｎ）を生成する。

合成フィルタ１３１４は、ＬＰＣ係数復号部１３１３からの復号されたＬＰＣ係数を用いて、復号化された時間領域の残差信号Ｓ_ｒ ^〜（ｎ）をＬＰＣ合成フィルタリング処理し、復号化された時間領域信号Ｓ^〜（ｎ）を得る。

図１４に本実施の形態に係る聴覚重み付け部１３０７の構成を示す。図１４には、個々のスペクトル係数を聴覚的に重み付けするための構成を示している。なお、図１４において図１１と同一の構成には同一の符号を付し説明を省略する。

聴覚重み付け部１３０７において、心理音響モデル分析部１４０１は、原信号のスペクトル係数Ｓ（ｆ）に基づいてマスキング曲線Ｍ（ｆ）を計算する。

図１５に、個々のスペクトル係数を聴覚的に重み付けする様子を示す。

図１５に示すように、スペクトル係数Ｓ（ｆ０）、Ｓ（ｆ１）、Ｓ（ｆ２）、およびＳ（ｆ４）のエネルギはマスキング曲線Ｍ（ｆ０）、Ｍ（ｆ１）、Ｍ（ｆ２）、およびＭ（ｆ４）よりも下回っている。したがって、これらのスペクトル係数においてビットが無駄にならないように、これらのスペクトル係数のエネルギを抑制する。

このように、本実施の形態によれば、ＴＣＸ符号化において、個々のスペクトル係数それぞれの聴覚上の重要度を求め、聴覚上の重要度に従って重み付け係数を求めてスペクトル係数それぞれに適用し、聴覚的に重み付けされたスペクトル係数に対して符号化を行う。

また、本実施の形態によれば、聴覚重み付け係数の適用を符号化側（音声符号化装置１３００Ａ）にてのみ行う。つまり、復号側（音声復号装置１３００Ｂ）ではこれに対応する逆重み付け処理は行わない。

（実施の形態３）
図１６Ａに本実施の形態に係る音声符号化装置１６００Ａの構成を示す。また、図１６Ｂに本実施の形態に係る音声復号装置１６００Ｂの構成を示す。

本実施の形態では、低位レイヤにＣＥＬＰ符号化、高位レイヤに変換符号化を用いた階層符号化（スケーラブル符号化）において、個々のスペクトル係数を聴覚的に重み付けする。なお、以下の説明では、低位レイヤおよび高位レイヤの２階層よりなる階層符号化を一例として説明するが、本発明は、３階層以上からなる階層符号化にも同様に適用することができる。

音声符号化装置１６００Ａ（図１６Ａ）において、ＣＥＬＰ符号化部１６０１は、時間領域における信号の冗長性を利用するため、入力信号にＣＥＬＰ符号化を行う。

ＣＥＬＰ復号部１６０２は、ＣＥＬＰパラメータを使用して合成信号Ｓ_ｓｙｎ（ｎ）を生成する。

減算器１６１２は、入力信号から合成信号を減算することによって、誤差信号Ｓ_ｅ（ｎ）（入力信号と合成信号との間の誤差信号）を得る。

時間−周波数変換部１６０４は、離散フーリエ変換（ＤＦＴ）または修正離散コサイン変換（ＭＤＣＴ）などの時間−周波数変換を使用して、誤差信号Ｓ_ｅ（ｎ）を周波数領域信号（スペクトル係数）Ｓ_ｅ（ｆ）に変換する。

時間−周波数変換部１６０３は、離散フーリエ変換（ＤＦＴ）または修正離散コサイン変換（ＭＤＣＴ）などの時間−周波数変換を使用して、ＣＥＬＰ復号部１６０２からの合成信号Ｓ_ｓｙｎ（ｎ）を周波数領域信号（スペクトル係数）Ｓ_ｓｙｎ（ｆ）に変換する。

聴覚重み付け部１６０５は、個々のスペクトル係数における聴覚重み付けを、スペクトル係数Ｓ_ｅ（ｆ）に適用する。ここで、聴覚重み付け係数はスペクトル係数Ｓ_ｓｙｎ（ｆ）と誤差信号のスペクトル係数Ｓ_ｅ（ｆ）とを基に求められる。

符号化部１６０６は、聴覚的に重み付けされた信号を符号化する。

多重化部１６０７は、符号化パラメータおよびＣＥＬＰパラメータを多重化し、復号側に送信する。

音声復号装置１６００Ｂ（図１６Ｂ）において、分離部１６０８は、ビットストリーム情報を分離して符号化パラメータおよびＣＥＬＰパラメータを生成する。

復号部１６１０は、符号化パラメータを復号し、復号化された周波数領域の誤差信号Ｓ_ｅ ^〜（ｆ）を生成する。

ＣＥＬＰ復号部１６０９は、ＣＥＬＰパラメータを使用して合成信号Ｓ_ｓｙｎ（ｎ）を生成する。

周波数−時間変換部１６１１は、逆離散フーリエ変換（ＩＤＦＴ）または逆修正離散コサイン変換（ＩＭＤＣＴ）などの周波数−時間変換を使用して、復号化された周波数領域の残差信号Ｓ_ｅ ^〜（ｆ）を時間領域に変換し、復号化された時間領域の誤差信号Ｓ_ｅ ^〜（ｎ）を生成する。

加算器１６１３は、ＣＥＬＰ合成信号Ｓ_ｓｙｎ（ｎ）と、復号化された誤差信号Ｓ_ｅ ^〜（ｎ）とを加算することによって、復号化された時間領域信号Ｓ^〜（ｎ）を生成する。

図１７に本実施の形態に係る聴覚重み付け部１６０５の構成（構成例１）を示す。図１７には、個々のスペクトル係数を聴覚的に重み付けするための構成を示している。なお、図１７において図１１と同一の構成には同一の符号を付し説明を省略する。

図１７に示す聴覚重み付け部１６０５（構成例１）において、心理音響モデル分析部１７０１は、ＣＥＬＰ復号信号のスペクトル係数Ｓ_ｓｙｎ（ｆ）に基づいてマスキング曲線Ｍ（ｆ）を計算する。

図１８に本実施の形態に係る聴覚重み付け部１６０５の構成（構成例２）を示す。図１８には、個々のスペクトル係数を聴覚的に重み付けするための構成を示している。

図１８に示す聴覚重み付け部１６０５（構成例２）において、加算器１８０５は、ＣＥＬＰ復号信号のスペクトルＳ_ｓｙｎ（ｆ）と誤差信号のスペクトルＳ_ｅ（ｆ）とを加算することによって、原信号のスペクトルＳ（ｆ）を生成する。

ＳＮＲ算出部１８０１は、生成された原信号のスペクトルＳ（ｆ）と誤差信号のスペクトルＳ_ｅ（ｆ）との間の信号対雑音比を計算する。信号対雑音比ＳＮＲ（ｆ）は、次式のように算出される。

推定部１８０２は、信号対雑音比ＳＮＲ（ｆ）に基づいて、スペクトル係数それぞれの聴覚上の重要度ｐｉ（ｆ）を推定する。聴覚上の重要度ｐｉ（ｆ）は、スペクトル係数がどの程度聴感的に重要かを定量的に示すパラメータである。聴覚上の重要度ｐｉ（ｆ）が大きい値を示すほど、そのスペクトル係数は聴感的に重要である。聴覚上の重要度ｐｉ（ｆ）は信号対雑音比ＳＮＲ（ｆ）とスペクトル係数のエネルギに基づいて算出される。その算出は対数領域で行われても良く、例えば、次式に従い聴覚上の重要度ｐｉ（ｆ）が算出される。

ここで、Ｓ_ａｖｅ ^２はサブバンドに含まれるスペクトル係数の平均エネルギであり、次式のように算出される。

また、ＳＮＲ_ａｖｅはサブバンドに含まれるスペクトル係数全体の信号対雑音比を表し、次式のように算出される。

または、聴覚上の重要度ｐｉ（ｆ）を信号対雑音比の項のみを用いて次式のように求めても良い。

重み係数算出部１８０３は、聴覚上の重要度ｐｉ（ｆ）に基づいて重み付け係数Ｗ（ｆ）を算出する。重み付け係数Ｗ（ｆ）はスペクトル係数Ｓ（ｆ）に重み付けを行うためのものである。聴覚上の重要度ｐｉ（ｆ）が大きい値を示すほど、重み付け係数Ｗ（ｆ）は大きい値となり、例えば次式のように求められる。

重み付け部１８０４は、重み付け係数Ｗ（ｆ）をスペクトル係数Ｓ（ｆ）に乗じ、聴覚的に重み付けされたスペクトル係数Ｓ_ｅ＿ＰＷ（ｆ）を生成する。よって、スペクトル係数Ｓ_ｅ＿ＰＷ（ｆ）は次式のようになる。

図１９に、個々のスペクトル係数を聴覚的に重み付けする様子を示す。

図１９においてスペクトル係数Ｓ（ｆ１）に着目すると、このスペクトル係数が他のスペクトル係数よりも大きな振幅値を有していることが分かる。また、周波数ｆ１における信号対雑音比ＳＮＲ（ｆ１）も他の信号対雑音比に比べて最大値となっている。このとき、本実施の形態では、誤差信号のスペクトル係数Ｓ_ｅ（ｆ１）には１未満の小さな重み付け係数Ｗ（ｆ１）が乗じられることになり、重み付け後のスペクトル係数Ｓ_ｅ＿ＰＷ（ｆ１）はＳ_ｅ（ｆ１）よりも小さな振幅値となる。

一例として、聴覚上の重要度ｐｉ（ｆ）および重み付け係数Ｗ（ｆ）が上記のように算出される場合に、聴覚的に重み付けされたスペクトル係数Ｓ_ｅ＿ＰＷ（ｆ１）は以下のように表され、スペクトル係数Ｓ_ｅ（ｆ１）よりも小さくなることが分かる。

このように、本実施の形態によれば、信号対雑音比に従って周波数単位に重み付け係数を算出することにより、信号対雑音比の高いスペクトルの重要性を下げて、このスペクトルへ符号化ビットを配分させにくくする。

これにより、他の信号対雑音比の低いスペクトルへ符号化ビットが多く配分されるようになり、音質が向上する。

以上、本発明の各実施の形態について説明した。

なお、上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

２０１０年１月１４日出願の特願２０１０−００６３１２の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

本発明は、音声符号化を行う通信装置、音声復号を行う通信装置、特に無線通信装置に好適である。

１０００Ａ音声符号化装置
１０００Ｂ音声復号装置
１００１時間−周波数変換部
１００２心理音響モデル分析部
１００３聴覚重み付け部
１００４符号化部
１００５多重化部
１００６分離部
１００７復号部
１００８周波数−時間変換部
１１０１推定部
１１０２重み係数算出部
１１０３重み付け部
１３００Ａ音声符号化装置
１３００Ｂ音声復号装置
１３０１ＬＰＣ分析部
１３０２符号化部
１３０３復号部
１３０４逆フィルタ部
１３０５時間−周波数変換部
１３０６時間−周波数変換部
１３０７聴覚重み付け部
１３０８符号化部
１３０９多重化部
１３１０分離部
１３１１復号部
１３１２周波数−時間変換部
１３１３ＬＰＣ係数復号部
１３１４合成フィルタ
１４０１心理音響モデル分析部
１６００Ａ音声符号化装置
１６００Ｂ音声復号装置
１６０１ＣＥＬＰ符号化部
１６０２ＣＥＬＰ復号部
１６０３時間−周波数変換部
１６０４時間−周波数変換部
１６０５聴覚重み付け部
１６０６符号化部
１６０７多重化部
１６０８分離部
１６０９ＣＥＬＰ復号部
１６１０復号部
１６１１周波数−時間変換部
１６１２減算器
１６１３加算器
１７０１心理音響モデル分析部
１８０１ＳＮＲ算出部
１８０２推定部
１８０３重み係数算出部
１８０４重み付け部
１８０５加算器

Claims

少なくとも低位レイヤおよび高位レイヤの２階層よりなる階層符号化を行う音声符号化装置であって、
入力信号と前記低位レイヤの復号信号との誤差信号を生成する生成手段と、
前記入力信号および前記誤差信号を用いて信号対雑音比を算出し、前記信号対雑音比に基づいて、前記誤差信号における互いに異なる周波数の複数のスペクトル係数それぞれの聴覚上の重要度を推定する推定手段と、
推定された各重要度に基づいて、前記複数のスペクトル係数それぞれの重み付け係数を算出する算出手段と、
算出された各重み付け係数を用いて、前記複数のスペクトル係数それぞれを重み付けする重み付け手段と、
重み付けされた前記複数のスペクトル係数を符号化する符号化手段と、
を具備する音声符号化装置。
少なくとも低位レイヤおよび高位レイヤの２階層よりなる階層符号化を行う音声符号化方法であって、
入力信号と前記低位レイヤの復号信号との誤差信号を生成するステップと、
前記入力信号および前記誤差信号を用いて信号対雑音比を算出し、前記信号対雑音比に基づいて、前記誤差信号における互いに異なる周波数の複数のスペクトル係数それぞれの聴覚上の重要度を推定するステップと、
推定された各重要度に基づいて、前記複数のスペクトル係数それぞれの重み付け係数を算出するステップと、
算出された各重み付け係数を用いて、前記複数のスペクトル係数それぞれを重み付けするステップと、
重み付けされた前記複数のスペクトル係数を符号化するステップと、
を具備する音声符号化方法。