JP3881946B2 - 音響符号化装置及び音響符号化方法 - Google Patents

音響符号化装置及び音響符号化方法 Download PDF

Info

Publication number
JP3881946B2
JP3881946B2 JP2002267436A JP2002267436A JP3881946B2 JP 3881946 B2 JP3881946 B2 JP 3881946B2 JP 2002267436 A JP2002267436 A JP 2002267436A JP 2002267436 A JP2002267436 A JP 2002267436A JP 3881946 B2 JP3881946 B2 JP 3881946B2
Authority
JP
Japan
Prior art keywords
signal
acoustic
encoding
decoded
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002267436A
Other languages
English (en)
Other versions
JP2004102186A (ja
Inventor
正浩 押切
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2002267436A priority Critical patent/JP3881946B2/ja
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to AU2003234763A priority patent/AU2003234763A1/en
Priority to US10/512,407 priority patent/US7752052B2/en
Priority to CN2007101529084A priority patent/CN101131820B/zh
Priority to CNB038093723A priority patent/CN100346392C/zh
Priority to EP03728004.7A priority patent/EP1489599B1/en
Priority to PCT/JP2003/005419 priority patent/WO2003091989A1/ja
Publication of JP2004102186A publication Critical patent/JP2004102186A/ja
Application granted granted Critical
Publication of JP3881946B2 publication Critical patent/JP3881946B2/ja
Priority to US12/775,216 priority patent/US8209188B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、楽音信号または音声信号などの音響信号を高能率に圧縮符号化する音響符号化装置及び音響符号化方法に関し、特に符号化コードの一部からでも楽音や音声を復号することができるスケーラブル符号化を行う音響符号化装置及び音響符号化方法に関する。
【0002】
【従来の技術】
楽音信号または音声信号を低ビットレートで圧縮する音響符号化技術は、移動体通信における電波等の伝送路容量及び記録媒体の有効利用のために重要である。音声信号を符号化する音声符号化に、ITU(International Telecommunication Union)で規格化されているG726、G729などの方式がある。これらの方式は、狭帯域信号(300Hz〜3.4kHz)を対象とし、8kbit/s〜32kbit/sのビットレートで高品質に符号化できる。
【0003】
また、広帯域信号(50Hz〜7kHz)を符号化する標準方式としてITUのG722、G722.1や、3GPP(The 3rd Generation Partnership Project)のAMR−WBなどが存在する。これらの方式は、6.6kbit/s〜64kbit/sのビットレートで広帯域音声信号を高品質に符号化できる。
【0004】
音声信号を低ビットレートで高能率に符号化を行う有効な方法に、CELP(Code Excited Linear Prediction)がある。CELPは、人間の音声生成モデルを工学的に模擬したモデルに基づき、乱数やパルス列で表される励振信号を周期性の強さに対応するピッチフィルタと声道特性に対応する合成フィルタに通し、その出力信号と入力信号の二乗誤差が聴覚特性の重み付けの下で最小になるよう符号化パラメータを決定する方法である(例えば、非特許文献1参照)。
【0005】
最近の標準音声符号化方式の多くがCELPに基づいており、例えばG729は、8kbit/sのビットレートで狭帯域信号の符号化でき、AMR−WBは6.6kbit/s〜23.85kbit/sのビットレートで広帯域信号を符号化できる。
【0006】
一方で、楽音信号を符号化する楽音符号化の場合、MPEG(Moving Picture Expert Group)で規格化されているレイヤ3方式やAAC方式のように、楽音信号を周波数領域に変換し、聴覚心理モデルを利用して符号化を行う変換符号化が一般的である。これらの方式は、サンプリングレートが44.1kHzの信号に対しチャネル当たり64kbit/s〜96kbit/sのビットレートでほとんど劣化が生じないことが知られている。
【0007】
しかしながら、音声信号が主体で、背景に音楽や環境音が重畳している信号を符号化する場合、音声符号化方式を適用すると背景部の音楽や環境音の影響で、背景部の信号のみならず音声信号も劣化してしまい全体的な品質が低下するという問題がある。これは、音声符号化方式が、CELPという音声モデルに特化した方式を基本にしているために生じる問題である。また、音声符号化方式が対応できる信号帯域は高々7kHzまでであり、それ以上の高域を持つ信号に対しては構成上十分に対応しきれないという問題がある。
【0008】
一方で、楽音符号化は、音楽に対して高品質に符号化を行うことができるので、前述したような背景に音楽や環境音がある音声信号についても十分な品質を得ることができる。また、楽音符号化は、対象となる信号の帯域もCD品質であるサンプリングレートが22kHz程度の信号まで対応可能である。
【0009】
その反面、高品質な符号化を実現するためにはビットレートを高くして使用する必要があり、仮にビットレートを32kbit/s程度まで低く抑えると復号信号の品質が大きく低下するという問題がある。そのため、伝送レートの低い通信網で使用できないという問題がある。
【0010】
上述した問題を回避するためにこれらの技術を組み合わせて、最初に入力信号を基本レイヤにてCELPで符号化し、次にその復号信号を入力信号から減算して得られる誤差信号を求め、この信号を拡張レイヤにて変換符号化を行うスケーラブル符号化が考えられる。
【0011】
この方法では、基本レイヤはCELPを用いているため音声信号を高品質に符号化でき、かつ拡張レイヤは基本レイヤで表しきれない背景の音楽や環境音、基本レイヤでカバーする周波数帯よりも高い周波数成分の信号を効率よく符号化することができる。さらにこの構成によればビットレートを低く抑えることができる。加えて、この構成によれば、符号化コードの一部つまり基本レイヤの符号化コードのみから音響信号を復号することが可能であり、このようなスケーラブル機能は伝送容量の異なる複数のネットワークに対するマルチキャストの実現に有効である。
【0012】
しかしながら、音声ではなく音楽を入力したときに十分な品質を確保するためには、拡張レイヤへのビット配分を多くする必要があり、その結果ビットレートが高くなってしまうという問題がある。
【0013】
基本レイヤの符号化において、CELPのような音声に特化した符号化方式を用いているが、このCELPでは音楽に対する符号化効率が高くない。音楽信号を符号化すると、入力信号と基本レイヤの復号信号との誤差信号(拡張レイヤの入力信号)のパワーが大きくなるので、パワーの大きくなった誤差信号に対応するために拡張レイヤに多くのビットを配分して、最終的な復号信号の品質を上げる必要があった。
【0014】
この問題を解決するために、拡張レイヤで聴覚マスキングを利用して符号化効率を上げることが考えられる。聴覚マスキングとは、ある信号が与えられたときその信号の周波数の近傍に位置する信号が聞こえなくなる(マスクされる)という人間の聴覚特性を利用したものである。
【0015】
図28は、音響(音楽)信号のスペクトルの一例を示す図である。図28において、実線は聴覚マスキングを表し、破線は誤差スペクトルを表している。ここでいう誤差スペクトルとは、入力信号と基本レイヤの復号信号との誤差信号(拡張レイヤの入力信号)のスペクトルを指す。
【0016】
図28の斜線部で表される誤差スペクトルは、聴覚マスキングよりも振幅値が小さいため人間の聴覚では聞こえず、それ以外の領域では誤差スペクトルの振幅値が聴覚マスキングを超えているので量子化歪が知覚される。
【0017】
そこで、拡張レイヤでは図28の白地部に含まれる誤差スペクトルを符号化してその領域の量子化歪が聴覚マスキングよりも小さくなるようにすればよい。また、斜線部に属する係数は既に聴覚マスキングよりも小さくので量子化する必要がない。
【0018】
【非特許文献1】
"Code-Excited Linear Prediction (CELP): high quality speech at very low bit rates", Proc. ICASSP 85, pp.937-940, 1985.
【0019】
【発明が解決しようとする課題】
しかしながら、従来の装置においては、聴覚マスキングにより量子化が必要な周波数の情報を伝送する必要があり、伝送する情報量が増加してビットレートを低くすることができないという問題がある。
【0020】
本発明はかかる点に鑑みてなされたものであり、声が主体で背景に音楽や雑音が重畳しているような信号であっても、低ビットレートで高品質に符号化を行うことができる音響符号化装置及び音響符号化方法を提供することを目的とする。
【0021】
【課題を解決するための手段】
本発明の音響符号化装置は、音響信号に対し聴感重み付けを施し、量子化歪みのスペクトルが前記音響信号のスペクトル包絡にマスクされるようにしてから符号化して第1符号化コードを得る第1符号化手段と、前記第1符号化コードを復号化して復号信号を得る復号化手段と、前記復号信号から得られる復号スペクトルについて聴覚マスキング閾値を算出する一方、前記復号スペクトルに対しスケール調整および平滑化を施すことにより、前記聴覚マスキング閾値と比較される誤差スペクトルを前記復号スペクトルから生成し、前記誤差スペクトルのうち当該聴覚マスキング閾値以上の振幅を示す周波数領域を特定する特定手段と、前記音響信号と前記復号信号との残差信号を得る減算手段と、前記残差信号のうち、前記特定手段によって特定された周波数領域について符号化を施し、第2符号化コードを得る第2符号化手段と、を具備する構成を採る。
【0022】
この構成によれば、符号化信号の復号化した信号から拡張レイヤの符号化の対象となる周波数を決定することにより、符号化側から復号化側に伝送する基本レイヤの符号化信号のみで拡張レイヤの符号化の対象となる周波数を決定することができ、符号化側から復号化側にこの周波数の情報を伝送する必要がなくなり、低ビットレートで高品質に符号化を行うことができる。
【0029】
また、マスキング効果の特性を利用して、入力信号のスペクトルから聴覚マスキングを算出し、拡張レイヤの符号化において品質の劣化を伴わずに量子化の対象となるMDCT係数の数を減らすことができ、低ビットレートで高品質に符号化を行うことができる。
【0061】
【発明の実施の形態】
本発明者は、入力信号の代わりに基本レイヤの符号化コードを復号化した信号を使って拡張レイヤで符号化する周波数を推定しても、この復号信号は入力信号との歪が小さくなるよう決定されているため、充分に近似され大きな問題は生じないということに着目し本発明をするに至った。
【0062】
本発明の骨子は、入力信号をダウンサンプリングして符号化し、符号化した信号を復号化してアップサンプリングし、このアップサンプリングした復号信号と入力信号との差分信号を符号化する符号化方法において、符号化側と復号化側の両方で算出されるアップサンプリングした復号信号から拡張レイヤで符号化もしくは復号化の対象となる周波数を決定することにより、符号化側から復号化側にこの周波数の情報を伝送ことなく、低ビットレートで高品質に符号化を行うことである。
【0063】
以下、本発明の実施の形態について図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音響符号化装置の構成を示すブロック図である。図1の音響符号化装置100は、ダウンサンプリング器101と、基本レイヤ符号化器102と、局所復号化器103と、アップサンプリング器104と、遅延器105と、減算器106と、周波数決定部107と、拡張レイヤ符号化器108と、多重化器109とから主に構成される。
【0064】
図1において、ダウンサンプリング器101は、サンプリングレートFHの入力データ(音響データ)を受けつけ、この入力データをサンプリングレートFHより低いサンプリングレートFLに変換して基本レイヤ符号化器102に出力する。
【0065】
基本レイヤ符号化器102は、サンプリングレートFLの入力データを所定の基本フレーム単位で符号化し、入力データを符号化した第1符号化コードを局所復号化器103と多重化器109に出力する。例えば、基本レイヤ符号化器102は、入力データをCELP方式で符号化する。
【0066】
局所復号化器103は、第1符号化コードを復号化し、復号化により得られた復号信号をアップサンプリング器104に出力する。アップサンプリング器104は、復号信号のサンプリングレートをFHに上げて減算器106と周波数決定部107に出力する。
【0067】
遅延器105は、入力信号を所定の時間遅延して減算器106に出力する。この遅延の大きさをダウンサンプリング器101と基本レイヤ符号化器102と局所復号化器103とアップサンプリング器104で生じる時間遅れと同値とすることにより、次の減算処理での位相のずれを防ぐ役割を持つ。例えば、この遅延時間は、ダウンサンプリング器101、基本レイヤ符号化器102、局所復号化器103、及びアップサンプリング器104における処理の時間の総和とする。減算器106は、入力信号を復号信号で減算し、減算結果を誤差信号として拡張レイヤ符号化器108に出力する。
【0068】
周波数決定部107は、サンプリングレートをFHに上げた復号信号から誤差信号の符号化する領域と、符号化しない領域を決定して拡張レイヤ符号化器108に通知する。例えば、周波数決定部107は、サンプリングレートをFHに上げた復号信号から聴覚マスキングする周波数を決定して拡張レイヤ符号化器108に出力する。
【0069】
拡張レイヤ符号化器108は、誤差信号を周波数領域の係数に変換して誤差スペクトルを生成し、周波数決定部107から得られる符号化の対象となる周波数情報に基づき誤差スペクトルの符号化を行う。多重化器109は、基本レイヤ符号化器102で符号化された信号と、拡張レイヤ符号化器108で符号化された信号を多重化する。
【0070】
以下、基本レイヤ符号化器102と拡張レイヤ符号化器108とがそれぞれ符号化する信号について説明する。図2は、音響信号の情報の分布の一例を示す図である。図2において、縦軸は情報量を示し、横軸は周波数を示す。図2では、入力信号に含まれる音声情報と背景音楽・背景雑音情報がどの周波数帯にどれだけ存在しているかを表している。
【0071】
図2に示すように、音声情報は、周波数の低い領域に情報が多く存在し、高域に向かうほど情報量は減少する。一方、背景音楽・背景雑音情報は、音声情報と比べると相対的に低域の情報は少なく、高域に含まれる情報が大きい。
【0072】
そこで、基本レイヤではCELPを用いて音声信号を高品質に符号化し、拡張レイヤでは基本レイヤで表しきれない背景の音楽や環境音、基本レイヤでカバーする周波数帯よりも高い周波数成分の信号を効率よく符号化する。
【0073】
図3は、基本レイヤと拡張レイヤで符号化の対象とする領域の一例を示す図である。図3において、縦軸は情報量を示し、横軸は周波数を示す。図3は、基本レイヤ符号化器102と拡張レイヤ符号化器108がそれぞれ符号化する情報の対象となる領域を表している。
【0074】
基本レイヤ符号化器102は、0〜FL間の周波数帯の音声情報を効率よく表すように設計されており、この領域での音声情報は品質良く符号化することができる。しかし、基本レイヤ符号化器102では、0〜FL間の周波数帯の背景音楽・背景雑音情報の符号化品質が高くない。
【0075】
拡張レイヤ符号化器108は、上記説明にある基本レイヤ符号化器102の能力不足の部分と、FL〜FH間の周波数帯の信号をカバーするように設計されている。よって、基本レイヤ符号化器102と拡張レイヤ符号化器108を組み合わせることで広い帯域で高品質な符号化が実現できる。
【0076】
図3に示すように、基本レイヤ符号化器102における符号化により得られた第1符号化コードには、0〜FL間の周波数帯の音声情報が含まれているので、少なくとも第1符号化コードのみでも復号信号が得られるというスケーラブル機能が実現できる。
【0077】
また、拡張レイヤで聴覚マスキングを利用して符号化効率を上げることが考えられる。聴覚マスキングとは、ある信号が与えられたときその信号の周波数の近傍に位置する信号が聞こえなくなる(マスクされる)という人間の聴覚特性を利用したものである。
【0078】
図28は、音響(音楽)信号のスペクトルの一例を示す図である。図28において、実線は聴覚マスキングを表し、破線は誤差スペクトルを表している。ここでいう誤差スペクトルとは、入力信号と基本レイヤの復号信号との誤差信号(拡張レイヤの入力信号)のスペクトルを指す。
【0079】
図28の斜線部で表される誤差スペクトルは、聴覚マスキングよりも振幅値が小さいため人間の聴覚では聞こえず、それ以外の領域では誤差スペクトルの振幅値が聴覚マスキングを超えているので量子化歪が知覚される。
【0080】
そこで、拡張レイヤでは図28の白地部に含まれる誤差スペクトルを符号化してその領域の量子化歪が聴覚マスキングよりも小さくなるようにすればよい。また、斜線部に属する係数は既に聴覚マスキングよりも小さくので量子化する必要がない。
【0081】
本実施の形態の音響符号化装置100では、聴覚マスキング等により残差信号を符号化する周波数を符号化側から復号化側に伝送することをせず、符号化側と復号側でそれぞれアップサンプリングされた基本レイヤの復号信号を用いて拡張レイヤが符号化する誤差スペクトルの周波数を決定する。
【0082】
基本レイヤの符号化コードを復号化した復号信号は、符号化側と復号化側で同じ信号が得られるので、符号化側は、この復号化信号から聴覚マスキングする周波数を決定して信号を符号化し、復号化側は、この復号化信号から聴覚マスキングされた周波数の情報を得て信号を復号化することにより、誤差スペクトルの周波数の情報を付加情報として符号化して伝送する必要は無くなり、ビットレートの低減を実現することができる。
【0083】
次に、本実施の形態に係る音響符号化装置の各ブロックの詳細な動作について説明する。最初にアップサンプリングされた基本レイヤの復号信号(以後、基本レイヤ復号信号と呼ぶ)から拡張レイヤにて符号化される誤差スペクトルの周波数を決定する周波数決定部107の動作の説明を行う。図4は、本実施の形態の音響符号化装置の周波数決定部の内部構成の一例を示すブロック図である。
【0084】
図4において、周波数決定部107は、FFT部401と、推定聴覚マスキング算出器402と、決定部403とから主に構成される。
【0085】
FFT部401は、アップサンプリング器104から出力された基本レイヤ復号信号x(n)を直交変換して振幅スペクトルP(m)を算出して推定聴覚マスキング算出器402と決定部403に出力する。具体的には、FFT部401は、以下の式(1)を用いて振幅スペクトルP(m)を算出する。
【0086】
【数1】
Figure 0003881946
ここで、Re(m)とIm(m)は基本レイヤ復号信号x(n)のフーリエ係数の実部と虚部、mは周波数を表す。
【0087】
次に、推定聴覚マスキング算出器402は、基本レイヤ復号信号の振幅スペクトルP(m)を用いて推定聴覚マスキングM’(m)を算出して決定部403に出力する。一般的には、聴覚マスキングは、入力信号のスペクトルを基に算出されるものであるが、本実施例では入力信号の代わりに基本レイヤ復号信号x(n)を使って聴覚マスキングを推定する。これは、基本レイヤ復号信号x(n)は入力信号との歪が小さくなるよう決定されているため、入力信号の代わりに基本レイヤ復号信号x(n)を用いても充分に近似され大きな問題は生じないという考えに基づいている。
【0088】
次に、決定部403は、基本レイヤ復号信号の振幅スペクトルP(m)と推定聴覚マスキング算出器402で得られる推定聴覚マスキングM’(m)を用いて拡張レイヤ符号化器108で誤差スペクトルを符号化する対象の周波数を決定する。決定部403は、基本レイヤ復号信号の振幅スペクトルP(m)を誤差スペクトルの近似値とみなし、次の式(2)が成り立つ周波数mを拡張レイヤ符号化器108に出力する。
【0089】
【数2】
Figure 0003881946
【0090】
式(2)において、P(m)の項は、誤差スペクトルの大きさを推定しており、M’(m)の項は、聴覚マスキングを推定している。そして、決定部403は、推定誤差スペクトルと推定聴覚マスキングの大きさを比較し、式(2)を満たす場合、すなわち推定聴覚マスキングの大きさを推定誤差スペクトルの大きさが超える場合に、その周波数の誤差スペクトルはノイズとして知覚されるとして拡張レイヤ符号化器108で符号化する対象とする。
【0091】
逆に推定聴覚マスキングの大きさより推定誤差スペクトルの大きさが下回る場合に、決定部403は、マスキング効果によりその周波数の誤差スペクトルはノイズとして知覚されないとみなし、この周波数の誤差スペクトルは量子化の対象から外す。
【0092】
次に、推定聴覚マスキング算出器402の動作を説明する。図5は、本実施の形態の音響符号化装置の聴覚マスキング算出器の内部構成の一例を示す図である。図5において、推定聴覚マスキング算出器402は、バークスペクトル算出器501と、スプレッド関数畳み込み器502と、トーナリティ算出器503と、聴覚マスキング算出器504とから主に構成される。
【0093】
図5において、バークスペクトル算出器501は、以下の式(3)を用いてバークスペクトルB(k)を算出する。
【0094】
【数3】
Figure 0003881946
ここで、P(m)は振幅スペクトルを表し、上述の式(1)より求められる。また、kはバークスペクトルの番号に対応し、FL(k)、FH(k)はそれぞれ第kバークスペクトルの最低周波数、最高周波数を表す。バークスペクトルB(k)はバークスケール上で等間隔に帯域分割されたときのスペクトル強度を表す。ヘルツスケールをf、バークスケールをBと表したとき、ヘルツスケールとバークスケールの関係は以下の式(4)で表される。
【0095】
【数4】
Figure 0003881946
【0096】
スプレッド関数畳み込み器502は、以下に示す式(5)を用いてバークスペクトルB(k)にスプレッド関数SF(k)を畳み込み、C(k)を算出する。
【0097】
【数5】
Figure 0003881946
【0098】
トーナリティ算出器503は、以下の式(6)を用い、各バークスペクトルのスペクトル平坦度SFM(k)を求める。
【0099】
【数6】
Figure 0003881946
ここで、μg(k)は第kバークスペクトルに含まれるパワースペクトルの幾何平均、μa(k)は第kバークスペクトルに含まれるパワースペクトルの算術平均を表す。そして、トーナリティ算出器503は、以下の式(7)を用いてスペクトル平坦度SFM(k)のデシベル値SFMdB(k)からトーナリティ係数α(k)を算出する。
【0100】
【数7】
Figure 0003881946
【0101】
聴覚マスキング算出器504は、以下の式(8)を用いてトーナリティ算出器503で算出したトーナリティ係数α(k)から各バークスケールのオフセットO(k)を求める。
【0102】
【数8】
Figure 0003881946
【0103】
そして、聴覚マスキング算出器504は、以下の式(9)を用いてスプレッド関数畳み込み器502で求めたC(k)からオフセットO(k)を減算して聴覚マスキングT(k)を算出する。
【0104】
【数9】
Figure 0003881946
ここで、Tq(k)は絶対閾値を表す。絶対閾値は、人間の聴覚特性として観測される聴覚マスキングの最小値を表す。そして、聴覚マスキング算出器504は、バークスケールで表される聴覚マスキングT(k)をヘルツスケールに変換して推定聴覚マスキングM'(m)を求め、決定部403に出力する。
【0105】
このようにして求められた量子化の対象となる周波数mを使って、拡張レイヤ符号化器108にてMDCT係数の符号化を行う。図6は、本実施の形態の拡張レイヤ符号化器の内部構成の一例を示すブロック図である。図6の拡張レイヤ符号化器108は、MDCT部601と、MDCT係数量子化器602とから主に構成される。
【0106】
MDCT部601は、減算器106から出力された入力信号に分析窓を乗じた後、MDCT変換(変形離散コサイン変換)してMDCT係数を求める。MDCT変換は、前後の隣接フレームと分析フレームを半分ずつ完全に重ね合わせ、分析フレームの前半部は奇関数、後半部は偶関数という直交基底を用いる。MDCT変換は、波形を合成する際、逆変換後の波形を重ね合わせて加算することにより、フレーム境界歪が発生しないという特徴がある。MDCTを行う際には、sin窓などの窓関数を入力信号に乗ずる。MDCT係数をX(n)とすると、MDCT係数は、式(10)に従い算出される。
【0107】
【数10】
Figure 0003881946
【0108】
MDCT係数量子化器602は、MDCT部601から出力された入力信号に周波数決定部107から出力された量子化の対象となる周波数に対応する係数を量子化する。そして、MDCT係数量子化器602は、量子化したMDCT係数の符号化コードを多重化器109に出力する。
【0109】
このように、本実施の形態の音響符号化装置によれば、基本レイヤの符号化コードを復号化した信号から拡張レイヤの符号化の対象となる周波数を決定することにより、符号化側から復号化側に伝送する基本レイヤの符号化信号のみで拡張レイヤの符号化の対象となる周波数を決定することができ、符号化側から復号化側にこの周波数の情報を伝送する必要がなくなり、低ビットレートで高品質に符号化を行うことができる。
【0110】
なお、上記実施の形態では、FFTを使った聴覚マスキングの算出法について説明しているが、FFTの代わりMDCTを使って聴覚マスキングを算出することもできる。図7は、本実施の形態の周波数決定部の内部構成の一例を示すブロック図である。但し、図5と同一の構成となるものについては、図5と同一番号を付し、詳しい説明を省略する。
【0111】
MDCT部701は、MDCT係数を使って振幅スペクトルP(m)を近似する。具体的には、MDCT部701は、以下の式(11)を用いてP(m)を近似する。
【0112】
【数11】
Figure 0003881946
ここで、R(m)は、アップサンプリング器104から与えられる信号をMDCT変換して求めたMDCT係数を表す。
【0113】
推定聴覚マスキング算出器402は、MDCT部701において近似されたP(m)からバークスペクトルB(k)を算出する。それ以後は上述した方法に従い量子化の対象となる周波数情報を算出する。
【0114】
このように、本実施の形態の音響符号化装置は、MDCTを使って聴覚マスキングを算出することもできる。
【0115】
次に、復号化側について説明する。図8は、本発明の実施の形態1に係る音響復号化装置の構成を示すブロック図である。図8の音響復号化装置800は、分離器801と、基本レイヤ復号化器802と、アップサンプリング器803と、周波数決定部804と、拡張レイヤ復号化器805と、加算器806とから主に構成される。
【0116】
分離器801は、音響符号化装置100において符号化されたコードを基本レイヤ用の第1符号化コードと拡張レイヤ用の第2符号化コードに分離し、第1符号化コードを基本レイヤ復号化器802に出力し、第2符号化コードを拡張レイヤ復号化器805に出力する。
【0117】
基本レイヤ復号化器802は、第1符号化コードを復号してサンプリングレートFLの復号信号を得る。そして、基本レイヤ復号化器802は、復号信号をアップサンプリング器803に出力する。アップサンプリング器803は、サンプリングレートFLの復号信号をサンプリングレートFHの復号信号に変換して周波数決定部804と加算器806に出力する。
【0118】
周波数決定部804は、アップサンプリングされた基本レイヤの復号信号を用いて拡張レイヤ復号化器805で復号化の対象となる誤差スペクトルの周波数を決定する。この周波数決定部804は、図1の周波数決定部107と同様の構成をとる。
【0119】
拡張レイヤ復号化器805は、第2符号化コードを復号してサンプリングレートFHの復号信号を得る。そして、拡張レイヤ復号化器805は、復号された拡張フレーム単位の復号信号を重ね合わせ、重ね合わせた復号信号を加算器806に出力する。具体的には、拡張レイヤ復号化器805は、復号信号に合成用の窓関数を乗じ、前フレームで復号された時間領域の信号とフレームの半分だけオーバーラップさせて加算して出力信号を生成する。
【0120】
加算器806は、アップサンプリング器803においてアップサンプリングされた基本レイヤの復号信号と、加算器806において復号化された拡張レイヤの復号信号とを加算して出力する。
【0121】
次に、本実施の形態に係る音響復号化装置の各ブロックの詳細な動作について説明する。図9は、本実施の形態の音響復号化装置の拡張レイヤ復号化器の内部構成の一例を示すブロック図である。図9は、図8の拡張レイヤ復号化器805の内部構成の一例を示す図である。図9の拡張レイヤ復号化器805は、MDCT係数復号化器901と、IMDCT部902と、重ね合わせ加算器903とから主に構成される。
【0122】
MDCT係数復号化器901は、周波数決定部804から出力される復号化の対象となる誤差スペクトルの周波数に基づいて分離器801から出力される第2符号化コードから量子化されたMDCT係数を復号する。具体的には、周波数決定部804から示された信号の周波数に対応する復号MDCT係数を配置し、それ以外の周波数にはゼロを与える。
【0123】
IMDCT部902は、MDCT係数復号化器901から出力されるMDCT係数に逆MDCT変換を施し、時間領域の信号を生成して重ね合わせ加算器903に出力する。
【0124】
重ね合わせ加算器903は、復号された拡張フレーム単位の復号信号を重ね合わせ、重ね合わせた復号信号を加算器806に出力する。具体的には、重ね合わせ加算器903は、復号信号に合成用の窓関数を乗じ、前フレームで復号された時間領域の信号とフレームの半分だけオーバーラップさせて加算して出力信号を生成する。
【0125】
このように、本実施の形態の音響復号化装置によれば、基本レイヤの符号化コードを復号化した信号から拡張レイヤの復号化の対象となる周波数を決定することにより、符号化側から復号化側に伝送する基本レイヤの符号化コードのみで拡張レイヤの復号化の対象となる周波数を決定することができ、符号化側から復号化側にこの周波数の情報を伝送する必要がなくなり、低ビットレートで高品質に符号化を行うことができる。
【0126】
(実施の形態2)
本実施の形態では、基本レイヤの符号化においてCELPを用いる例について説明する。図10は、本発明の実施の形態2の基本レイヤ符号化器の内部構成の一例を示すブロック図である。図10は、図1の基本レイヤ符号化器102の内部構成を示す図である。図10の基本レイヤ符号化器102は、LPC分析器1001と、聴感重み部1002と、適応符号帳探索器1003と、適応ゲイン量子化器1004と、目標ベクトル生成器1005と、雑音符号帳探索器1006と、雑音ゲイン量子化器1007と、多重化器1008とから主に構成される。
【0127】
LPC分析器1001は、サンプリングレートFLの入力信号のLPC係数を算出し、このLPC係数をLSP係数などの量子化に適したパラメータに変換して量子化する。そして、LPC分析器1001は、この量子化で得られる符号化コードを多重化器1008に出力する。
【0128】
また、LPC分析器1001は、符号化コードから量子化後のLSP係数を算出してLPC係数に変換し、量子化後のLPC係数を、適応符号帳探索器1003、適応ゲイン量子化器1004、雑音符号帳探索器1006、及び雑音ゲイン量子化器1007に出力する。さらに、LPC分析器1001は、量子化前のLPC係数を聴感重み部1002、適応符号帳探索器1003、適応ゲイン量子化器1004、雑音符号帳探索器1006、及び雑音ゲイン量子化器1007に出力する。
【0129】
聴感重み部1002は、LPC分析器1001で求められたLPC係数に基づいてダウンサンプリング器101から出力された入力信号に重み付けを行う。これは、量子化歪のスペクトルを入力信号のスペクトル包絡にマスクされるようスペクトル整形を行うことを目的としている。
【0130】
適応符号帳探索器1003では、聴覚重み付けされた入力信号を目標信号として適応符号帳の探索が行われる。過去の音源系列をピッチ周期で繰り返した信号を適応ベクトルと呼び、あらかじめ定められた範囲のピッチ周期で生成された適応ベクトルによって適応符号帳は構成される。
【0131】
聴覚重み付けされた入力信号をt(n)、ピッチ周期iの適応ベクトルに量子化前のLPC係数と量子化後のLPC係数で構成される重み付き合成フィルタのインパルス応答を畳み込んだ信号をpi(n)としたとき、適応符号帳探索器1003は、式(12)の評価関数Dを最小とする適応ベクトルのピッチ周期iをパラメータとして多重化器1008に出力する。
【0132】
【数12】
Figure 0003881946
ここで、Nはベクトル長を表す。式(12)の第1項はピッチ周期iに独立なので、実際には、適応符号帳探索器1003は第2項のみを計算する。
【0133】
適応ゲイン量子化器1004は、適応ベクトルに乗じられる適応ゲインの量子化を行う。適応ゲインβは、以下の式(13)で表され、適応ゲイン量子化器1004は、この適応ゲインβをスカラー量子化し、量子化時に得られる符号を多重化器1008に出力する。
【0134】
【数13】
Figure 0003881946
【0135】
目標ベクトル生成器1005は、入力信号から適応ベクトルの影響を減算して、雑音符号帳探索器1006と雑音ゲイン量子化器1007で用いる目標ベクトルを生成して出力する。目標ベクトル生成器1005は、pi(n)を式12で表される評価関数Dを最小とするときの適応ベクトルに重み付き合成フィルタのインパルス応答を畳み込んだ信号、βqを式13で表される適応ベクトルβをスカラー量子化したときの量子化値としたとき、目標ベクトルt2(n)は、以下に示す式(14)のように表される。
【0136】
【数14】
Figure 0003881946
【0137】
雑音符号帳探索器1006は、前記目標ベクトルt2(n)と量子化前のLPC係数と量子化後のLPC係数を用いて雑音符号帳の探索を行う。例えば、雑音符号帳探索器1006には、ランダム雑音や大規模な音声信号を使って学習した信号を用いることができる。また、雑音符号帳探索器1006が備える雑音符号帳は、代数(Algebraic)符号帳のように、振幅1のパルスをあらかじめ定められた非常に少ない数だけ有するベクトルで表されることができる。この代数符号長は、パルスの位置とパルスの符号(極性)の最適な組み合わせを少ない計算量で決定することができるという特徴がある。
【0138】
雑音符号帳探索器1006は、目標ベクトルをt2(n)、コードjに対応する雑音ベクトルに重み付き合成フィルタのインパルス応答を畳み込んだ信号をcj(n)としたとき、以下に示す式(15)の評価関数Dを最小とする雑音ベクトルのインデックスjを多重化器1008に出力する。
【0139】
【数15】
Figure 0003881946
【0140】
雑音ゲイン量子化器1007は、雑音ベクトルに乗じる雑音ゲインを量子化する。雑音ゲイン量子化器1007は、以下に示す式(16)を用いて雑音ゲインγを算出し、この雑音ゲインγをスカラー量子化して多重化器1008に出力する。
【0141】
【数16】
Figure 0003881946
【0142】
多重化器1008は、送られてきたLPC係数、適応ベクトル、適応ゲイン、雑音ベクトル、雑音ゲインの符号化コードを多重化して局所復号化器103及び多重化器109に出力する。
【0143】
次に、復号化側について説明する。図11は、本実施の形態の基本レイヤ復号化器の内部構成の一例を示すブロック図である。図11は、図6の基本レイヤ復号化器802の内部構成を示す図である。図11の基本レイヤ復号化器802は、分離器1101と、音源生成器1102と、合成フィルタ1103とから主に構成される。
【0144】
分離器1101は、分離器801から出力された第1符号化コードをLPC係数、適応ベクトル、適応ゲイン、雑音ベクトル、雑音ゲインの符号化コードに分離して、適応ベクトル、適応ゲイン、雑音ベクトル、雑音ゲインの符号化コードを音源生成器1102に出力する。同様に、分離器1101は、LPC係数の符号化コードを合成フィルタ1103に出力する。
【0145】
音源生成器1102は、適応ベクトル、適応ベクトルゲイン、雑音ベクトル、雑音ベクトルゲインの符号化コードを復号し、以下に示す式(17)を用いて音源ベクトルex(n)を生成する。
【0146】
【数17】
Figure 0003881946
ここで、q(n)は適応ベクトル、βqは適応ベクトルゲイン、c(n)は雑音ベクトル、γqは雑音ベクトルゲインを表す。
【0147】
合成フィルタ1103では、LPC係数の符号化コードからLPC係数を復号し、以下に示す式(18)を用いて復号されたLPC係数から合成信号syn(n)を生成する。
【0148】
【数18】
Figure 0003881946
ここで、αqは復号されたLPC係数、NPはLPC係数の次数を表す。そして、合成フィルタ1103は、復号された復号信号syn(n)をアップサンプリング器803に出力する。
【0149】
このように、本実施の形態の音響符号化装置及び音響復号化装置によれば、送信側において、基本レイヤにCELPを適用して入力信号を符号化し、受信側において、この符号化した入力信号にCELPを適用して復号することにより、低ビットレートで高品質な基本レイヤを実現することができる。
【0150】
なお、本実施の形態の音声符号化装置は、量子化歪の知覚を抑制するために、合成フィルタ1103の後にポストフィルタを従属接続する構成を採ることもできる。図12は、本実施の形態の基本レイヤ復号化器の内部構成の一例を示すブロック図である。但し、図11と同一の構成となるものについては、図11と同一番号を付し、詳しい説明を省略する。
【0151】
ポストフィルタ1201は、量子化歪の知覚の抑制の実現のために様々な構成を適用しうるが、代表的な方法として、分離器1101で復号されて得られるLPC係数から構成されるホルマント強調フィルタを用いる方法がある。ホルマント強調フィルタHf(z)は以下に示す式(19)で表される。
【0152】
【数19】
Figure 0003881946
ここで、A(z)は復号LPC係数から構成される合成フィルタ、γn、γd、μはフィルタの特性を決定する定数を表す。
【0153】
(実施の形態3)
図13は、本発明の実施の形態3に係る音響符号化装置の周波数決定部の内部構成の一例を示すブロック図である。但し、図4と同一の構成となるものについては、図4と同一番号を付し、詳しい説明を省略する。図13の周波数決定部107は、推定誤差スペクトル算出器1301と、決定部1302とを具備し、基本レイヤ復号信号の振幅スペクトルP(m)から推定誤差スペクトルE’(m)を推定し、推定誤差スペクトルE’(m)と推定聴覚マスキングM’(m)とを用いて拡張レイヤ符号化器108で符号化される誤差スペクトルの周波数を決定する点が図4と異なる。
【0154】
FFT部401は、アップサンプリング器104から出力された基本レイヤ復号信号x(n)を直交変換して振幅スペクトルP(m)を算出して推定聴覚マスキング算出器402と推定誤差スペクトル算出器1301に出力する。
【0155】
推定誤差スペクトル算出器1301は、FFT部401で算出される基本レイヤ復号信号の振幅スペクトルP(m)から推定誤差スペクトルE’(m)を算出して決定部1302に出力する。推定誤差スペクトルE’(m)は、基本レイヤ復号信号の振幅スペクトルP(m)を平坦に近づける処理を施し算出される。具体的には、推定誤差スペクトル算出器1301は、以下の式(20)を用いて推定誤差スペクトルE’(m)を算出する。
【0156】
【数20】
Figure 0003881946
ここでaとγは0以上1未満の定数を表す。
【0157】
決定部1302は、推定誤差スペクトル算出器1301において推定された推定誤差スペクトルE’(m)と推定聴覚マスキング算出器402で得られる推定聴覚マスキングM’(m)を用いて拡張レイヤ符号化器108で誤差スペクトルを符号化する対象の周波数を決定する。
【0158】
次に、本実施の形態の推定誤差スペクトル算出器1301が算出する推定誤差スペクトルについて説明する。図14は、本実施の形態の推定誤差スペクトル算出器が算出する残差スペクトルの一例を示す図である。
【0159】
誤差スペクトルE(m)は、図14に示すように基本レイヤ復号信号の振幅スペクトルP(m)に比べスペクトルの形状が平坦になり、かつ全帯域のパワーが小さくなっている。よって、振幅スペクトルP(m)をγ(0<γ<1)乗することによりスペクトル形状を平坦化し、a(0<a<1)倍することにより全体域のパワーを減少させることにより、誤差スペクトルの推定精度を向上させることができる。
【0160】
同様に、復号化側も音響復号化装置800の周波数決定部804の内部構成を符号化側の図13の周波数決定部107と同じ構成とする。
【0161】
このように、本実施の形態の音響符号化装置によれば、基本レイヤの復号信号のスペクトルから推定した残差スペクトルを平滑化することにより、推定誤差スペクトルを残差スペクトルに近似することができ、拡張レイヤにて誤差スペクトルを効率よく符号化することができる。
【0162】
なお、本実施の形態では、FFTを用いた場合について説明したが、前述した実施の形態1と同様に、FFTの代わりにMDCTを用いる構成も可能である。
【0163】
(実施の形態4)
図15は、本発明の実施の形態4に係る音響符号化装置の周波数決定部の内部構成の一例を示すブロック図である。但し、図4と同一の構成となるものについては、図4と同一番号を付し、詳しい説明を省略する。図15の周波数決定部107は、推定聴覚マスキング修正部1501と、決定部1502とを具備し、周波数決定部107において、基本レイヤ復号信号の振幅スペクトルP(m)から推定聴覚マスキング算出器402にて推定聴覚マスキングM’(m)を算出した後に、この推定聴覚マスキングM’(m)に基本レイヤ符号化器102の符号化コードの情報を基に修正を加える点が図4と異なる。
【0164】
FFT部401は、アップサンプリング器104から出力された基本レイヤ復号信号x(n)を直交変換して振幅スペクトルP(m)を算出して推定聴覚マスキング算出器402と決定部1502に出力する。推定聴覚マスキング算出器402は、基本レイヤ復号信号の振幅スペクトルP(m)を用いて推定聴覚マスキングM’(m)を算出して推定聴覚マスキング修正部1501に出力する。
【0165】
推定聴覚マスキング修正部1501は、基本レイヤ符号化器102から入力される基本レイヤの符号化コードの情報を用いて推定聴覚マスキング算出器402で求められる推定聴覚マスキングM’(m)に修正を加える。
【0166】
ここでは、基本レイヤの符号化コードの情報として、復号LPC係数から算出される1次のPARCOR係数が与えられるものとする。一般にLPC係数やPARCOR係数は入力信号のスペクトル包絡を表現する。PARCOR係数の次数を下げていくと、PARCOR係数の性質から、スペクトル包絡の形状が簡略化されてゆき、PARCOR係数の次数が1次のときにスペクトルの傾きの程度を表すようになる。
【0167】
一方で、入力信号として与えられる楽音や音声のスペクトル特性には、高域に対して低域にパワーが偏っている場合(例えば母音)やその逆の場合(例えば子音)が存在する。基本レイヤ復号信号はこういった入力信号のスペクトル特性に影響を受けやすく、必要以上にスペクトルのパワーの偏りを強調してしまう傾向にある。
【0168】
そこで、本実施の形態の音響符号化装置は、推定聴覚マスキング修正部1501において、前述した1次のPARCOR係数を利用して過度に強調されたスペクトルの偏りを補正することにより、推定マスキングM’(m)の精度を向上させることができる。
【0169】
推定聴覚マスキング修正部1501は、以下に示す式(21)を用いて基本レイヤ符号化器102から出力された1次のPARCOR係数k(1)から修正フィルタHk(z)を算出する。
【0170】
【数21】
Figure 0003881946
ここでβは1未満の正の定数を表す。次に、推定聴覚マスキング修正部1501は、以下に示す式(22)を用いてHk(z)の振幅特性K(m)を算出する。
【0171】
【数22】
Figure 0003881946
【0172】
そして、推定聴覚マスキング修正部1501は、以下の式(23)を用いて修正フィルタの振幅特性K(m)から修正後の推定聴覚マスキングM’’(m)を算出する。
【0173】
【数23】
Figure 0003881946
【0174】
そして、推定聴覚マスキング修正部1501は、推定聴覚マスキングM’(m)の代わりに修正後の聴覚マスキングM’’(m)を決定部1502に出力する。
【0175】
決定部1502は、基本レイヤ復号信号の振幅スペクトルP(m)と推定聴覚マスキング修正部1501から出力される修正後の聴覚マスキングM’’(m)を用いて拡張レイヤ符号化器108で誤差スペクトルを符号化する対象の周波数を決定する。
【0176】
このように本実施の形態の音響符号化装置によれば、マスキング効果の特性を利用して、入力信号のスペクトルから聴覚マスキングを算出し、拡張レイヤの符号化において、量子化歪をこのマスキング値以下になるように量子化を行うことにより、品質の劣化を伴わずに量子化の対象となるMDCT係数の数を減らすことができ、低ビットレートで高品質に符号化を行うことができる。
【0177】
このように、本実施の形態の音響符号化装置によれば、基本レイヤ復号信号の振幅スペクトルから推定した推定聴覚マスキングを、基本レイヤ符号化器の符号化コードの情報を基に修正を加えることにより、推定聴覚マスキングの精度を向上させることができ、結果拡張レイヤにて誤差スペクトルを効率よく符号化することができる。
【0178】
同様に、復号化側も音響復号化装置800の周波数決定部804の内部構成を符号化側の図15の周波数決定部107と同じ構成とする。
【0179】
なお、本実施の形態の周波数決定部107は、本実施の形態と実施の形態3とを組み合わせた構成を採ることもできる。図16は、本実施の形態の音響符号化装置の周波数決定部の内部構成の一例を示すブロック図である。但し、図4と同一の構成となるものについては、図4と同一番号を付し、詳しい説明を省略する。
【0180】
FFT部401は、アップサンプリング器104から出力された基本レイヤ復号信号x(n)を直交変換して振幅スペクトルP(m)を算出して推定聴覚マスキング算出器402と推定誤差スペクトル算出器1301に出力する。
【0181】
推定聴覚マスキング算出器402は、基本レイヤ復号信号の振幅スペクトルP(m)を用いて推定聴覚マスキングM’(m)を算出して推定聴覚マスキング修正部1501に出力する。
【0182】
推定聴覚マスキング修正部1501は、基本レイヤ符号化器102から入力される基本レイヤの符号化コードの情報が推定聴覚マスキング修正部1501を用いて推定聴覚マスキング算出器402で求められる推定聴覚マスキングM’(m)に修正を加える。
【0183】
推定誤差スペクトル算出器1301は、FFT部401で算出される基本レイヤ復号信号の振幅スペクトルP(m)から推定誤差スペクトルE’(m)を算出して決定部1601に出力する。
【0184】
決定部1601は、推定誤差スペクトル算出器1301において推定された推定誤差スペクトルE’(m)と推定聴覚マスキング修正部1501から出力される修正後の聴覚マスキングM’’(m)を用いて拡張レイヤ符号化器108で誤差スペクトルを符号化する対象の周波数を決定する。
【0185】
また、本実施の形態では、FFTを用いた場合について説明したが、前述した実施の形態1と同様に、FFTの代わりにMDCTを用いる構成も可能である。
【0186】
(実施の形態5)
図17は、本発明の実施の形態5に係る音響符号化装置の拡張レイヤ符号化器の内部構成の一例を示すブロック図である。但し、図6と同一の構成となるものについては、図6と同一番号を付し、詳しい説明を省略する。図17の拡張レイヤ符号化器は、順序づけ部1701と、MDCT係数量子化器1702を具備し、周波数決定部107から与えられる周波数を推定歪値D(m)の大きさに従い周波数別で符号化後の情報量に重み付けを行う点が図6の拡張レイヤ符号化器と異なる。
【0187】
図17において、MDCT部601は、減算器106から出力された入力信号に分析窓を乗じた後、MDCT変換(変形離散コサイン変換)してMDCT係数を求め、MDCT係数量子化器1702に出力する。
【0188】
順序づけ部1701は、周波数決定部107で求められた周波数情報を受けつけ、各周波数の推定誤差スペクトルE’(m)が推定聴覚マスキングM’(m)を超える量(以後、推定歪値と呼ぶ)D(m)を算出する。この推定歪値D(m)は、以下に示す式(24)で定義される。
【0189】
【数24】
Figure 0003881946
【0190】
ここで、順序づけ部1701は、以下に示す式(25)を満たす推定歪値D(m)のみ算出する。
【0191】
【数25】
Figure 0003881946
【0192】
そして、順序づけ部1701は、推定歪値D(m)の大きさが大きいものから順序付けを行い、その周波数情報をMDCT係数量子化器1702に出力する。MDCT係数量子化器1702では、推定歪値D(m)により順序付けされた周波数情報を基に、推定歪値D(m)の大きいものからその周波数に位置する誤差スペクトルE(m)にビットを多く配分して量子化を行う。
【0193】
ここでは例として、周波数決定手段から送られてくる周波数と推定歪値が図18である場合について説明する。図18は、本実施の形態の順序づけ部の推定歪値の順位づけの一例を示す図である。
【0194】
順序づけ部1701は、図18の情報から、推定歪値D(m)が大きい順に周波数の並べ替えを行う。この例では、順序づけ部1701の処理の結果、周波数m=7、8、4、9、1、11、3、12の順序が得られる。順序づけ部1701は、この順序付けの情報をMDCT係数量子化器1702に出力する。
【0195】
MDCT係数量子化器1702では、MDCT部601から与えられる誤差スペクトルE(m)の内、順序づけ部1701から与えられる順序付けの情報を基にして、E(7)、E(8)、E(4)、E(9)、E(1)、E(11)、E(3)、E(12)を量子化する。
【0196】
このとき、順序づけの先頭に位置する誤差スペクトルの量子化に用いられるビット数は多く配分され、末尾にいくに従いビット数は少なく配分される。すなわち、推定歪値D(m)が大きい周波数ほど誤差スペクトルの量子化に用いられるビット数は多く配分され、推定歪値D(m)が小さい周波数ほど誤差スペクトルの量子化に用いられるビット数は少なく配分される。
【0197】
例えば、E(7)を8ビット、E(8)、E(4)を7ビット、E(9)、E(1)を6ビット、E(11)、E(3)、E(12)を5ビットというようなビット配分を実施する。このような推定歪値D(m)に応じた適応ビット配分を行うことにより、量子化の効率が向上することになる。
【0198】
ベクトル量子化を適用する場合には、拡張レイヤ符号化器108は、先頭に位置する誤差スペクトルから順にベクトルを構成し、それぞれのベクトルに対してベクトル量子化を行う。このとき、先頭に位置する誤差スペクトルのビット配分が多くなり、末尾に位置する誤差スペクトルのビット配分が小さくなるようなベクトルの構成と量子化ビット配分が成される。図18の例では、V1=(E(7)、E(8))、V2=(E(4)、E(9))、V3=(E(1)、E(11)、E(3)、E(12))のように、2次元、2次元、4次元の3ベクトルを構成し、V1を10ビット、V2を8ビット、V3を8ビットというようなビット配分を行う。
【0199】
このように、本実施の形態の音響符号化装置によれば、拡張レイヤでの符号化において、推定誤差スペクトルが推定聴覚マスキングを超える量が大きい周波数に多くの情報量を配分して符号化することにより、量子化効率の向上を図ることができる。
【0200】
次に復号化側について説明する。図19は、本発明の実施の形態5に係るの音響復号化装置の拡張レイヤ復号化器の内部構成の一例を示すブロック図である。但し、図9と同一の構成となるものについては、図9と同一番号を付し、詳しい説明を省略する。図19の拡張レイヤ復号化器805は、順序づけ部1901と、MDCT係数復号化器1902とを具備し、周波数決定部804から与えられる周波数を推定歪値D(m)の大きさに従い順序付けを行う点が図9と異なる。
【0201】
順序づけ部1901は、上述の式(24)を用いて推定歪値D(m)を算出する。順序づけ部1901は、上述の順序づけ部1701と同一の構成を採る。この構成により適応ビット配分を行い量子化効率の向上を図ることができる上述の音響符号化法の符号化コードを復号することができる。
【0202】
MDCT係数復号化器1902は、推定歪値D(m)の大きさに従い順序付けされた周波数の情報を用いて分離器801から出力された第2符号化コードを復号化する。具体的には、MDCT係数復号化器1902は、周波数決定部804から与えられる周波数に対応する復号MDCT係数を配置し、それ以外の周波数にはゼロを与える。次にIMDCT部902は、MDCT係数復号化器1902から得られるMDCT係数に逆MDCT変換を施し、時間領域の信号を生成する。
【0203】
重ね合わせ加算器903は、前記信号に合成用の窓関数を乗じ、前フレームで復号された時間領域の信号とフレームの半分だけオーバーラップさせて加算して出力信号を生成する。重ね合わせ加算器903は、この出力信号を加算器806に出力する。
【0204】
このように、本実施の形態の音響復号化装置によれば、拡張レイヤでの符号化において、推定誤差スペクトルが推定聴覚マスキングを超える量に応じて適応ビット配分されたベクトル量子化を行うことにより、量子化効率の向上を図ることができる。
【0205】
(実施の形態6)
図20は、本発明の実施の形態6に係る音響符号化装置の拡張レイヤ符号化器の内部構成の一例を示すブロック図である。但し、図6と同一の構成となるものについては、図6と同一番号を付し、詳しい説明を省略する。図20の拡張レイヤ符号化器は、固定帯域指定部2001と、MDCT係数量子化器2002とを具備し、あらかじめ定めておいた帯域に含まれるMDCT係数を周波数決定部107から得られる周波数と共に量子化する点が図6の拡張レイヤ符号化器と異なる。
【0206】
図20において、固定帯域指定部2001には、あらかじめ聴感上重要な帯域が設定されている。ここでは、設定されている帯域に含まれる周波数をm=15、16とする。
【0207】
MDCT係数量子化器2002は、MDCT部601から出力された入力信号に周波数決定部107から出力された聴覚マスキングを用いて入力信号を量子化する係数と量子化しない係数に分類し、量子化する係数と、さらに固定帯域指定部2001が設定する帯域にある係数を符号化する。
【0208】
その周波数が図18で示されたものであるとすると、MDCT係数量子化器2002では、誤差スペクトルE(1)、E(3)、E(4)、E(7)、E(8)、E(9)、E(11)、E(12)および、固定帯域指定部2001で指定される周波数の誤差スペクトルE(15)、E(16)が量子化される。
【0209】
このように、本実施の形態の音響符号化装置によれば、符号化の対象として選択されにくいが聴覚的に重要な帯域を強制的に量子化することにより、本来符号化の対象として選択されるべき周波数が選択されない場合でも、聴覚的に重要な帯域に含まれる周波数に位置する誤差スペクトルは必ず量子化されることになり、品質を改善することができる。
【0210】
次に、復号化側について説明する。図21は、本発明の実施の形態6に係る音響復号化装置の拡張レイヤ復号化器の内部構成の一例を示すブロック図である。但し、図9と同一の構成となるものについては、図9と同一番号を付し、詳しい説明を省略する。図21の拡張レイヤ復号化器は、固定帯域指定部2101と、MDCT係数復号化器2102とを具備し、あらかじめ定めておいた帯域に含まれるMDCT係数を周波数決定部804から得られる周波数と共に復号化する点が図9の拡張レイヤ復号化器と異なる。
【0211】
図21において、固定帯域指定部2101には、あらかじめ聴感上重要な帯域が設定されている。
【0212】
MDCT係数復号化器2102は、周波数決定部804から出力される復号化の対象となる誤差スペクトルの周波数に基づいて分離器801から出力される第2符号化コードから量子化されたMDCT係数を復号する。具体的には、周波数決定部804と固定帯域指定部2101から示された信号の周波数に対応する復号MDCT係数を配置し、それ以外の周波数にはゼロを与える。
【0213】
IMDCT部902は、MDCT係数復号化器2102から出力されるMDCT係数に逆MDCT変換を施し、時間領域の信号を生成して重ね合わせ加算器903に出力する。
【0214】
このように、本実施の形態の音響復号化装置によれば、あらかじめ定めておいた帯域に含まれるMDCT係数を復号化することにより、符号化の対象として選択されにくいが聴覚的に重要な帯域を強制的に量子化された信号を復号化することができ、符号化側において本来符号化の対象として選択されるべき周波数が選択されない場合でも、聴覚的に重要な帯域に含まれる周波数に位置する誤差スペクトルは必ず量子化されることになり、品質の改善することができる。
【0215】
なお、本実施の形態の拡張レイヤ符号化器及び拡張レイヤ復号化器は、本実施の形態と実施の形態5とを組み合わせた構成を採ることもできる。図22は、本実施の形態の音響符号化装置の周波数決定部の内部構成の一例を示すブロック図である。但し、図6と同一の構成となるものについては、図6と同一番号を付し、詳しい説明を省略する。
【0216】
図22において、MDCT部601は、減算器106から出力された入力信号に分析窓を乗じた後、MDCT変換(変形離散コサイン変換)してMDCT係数を求め、MDCT係数量子化器2201に出力する。
【0217】
順序づけ部1701は、周波数決定部107で求められた周波数情報を受けつけ、各周波数の推定誤差スペクトルE’(m)が推定聴覚マスキングM’(m)を超える量(以後、推定歪値と呼ぶ)D(m)を算出する。
固定帯域指定部2001には、あらかじめ聴感上重要な帯域が設定されている。
【0218】
MDCT係数量子化器2201では、推定歪値D(m)により順序付けされた周波数情報を基に、推定歪値D(m)の大きいものからその周波数に位置する誤差スペクトルE(m)にビットを多く配分して量子化を行う。また、MDCT係数量子化器2201は、固定帯域指定部2001が設定する帯域にある係数を符号化する。
【0219】
次に復号化側について説明する。図23は、本発明の実施の形態6に係る音響復号化装置の拡張レイヤ復号化器の内部構成の一例を示すブロック図である。但し、図9と同一の構成となるものについては、図9と同一番号を付し、詳しい説明を省略する。
【0220】
図23において、順序づけ部1901は、周波数決定部804で求められた周波数情報を受けつけ、各周波数の推定誤差スペクトルE’(m)が推定聴覚マスキングM’(m)を超える量(以後、推定歪値と呼ぶ)D(m)を算出する。
【0221】
そして、順序づけ部1901は、推定歪値D(m)の大きさが大きいものから順序付けを行い、その周波数情報をMDCT係数復号化器2301に出力する。固定帯域指定部2101には、あらかじめ聴感上重要な帯域が設定されている。
【0222】
MDCT係数復号化器2301は、順序づけ部1901から出力される復号化の対象となる誤差スペクトルの周波数に基づいて分離器801から出力される第2符号化コードから量子化されたMDCT係数を復号する。具体的には、周波数決定部804と固定帯域指定部2101から示された信号の周波数に対応する復号MDCT係数を配置し、それ以外の周波数にはゼロを与える。
【0223】
IMDCT部902は、MDCT係数復号化器2301から出力されるMDCT係数に逆MDCT変換を施し、時間領域の信号を生成して重ね合わせ加算器903に出力する。
【0224】
(実施の形態7)
次に、本発明の実施の形態7について、図面を参照して説明する。図24は、本発明の実施の形態7に係る通信装置の構成を示すブロック図である。図23における信号処理装置2403は前述した実施の形態1から実施の形態6に示した音響符号化装置の中の1つによって構成されている点に本実施の形態の特徴がある。
【0225】
図24に示すように、本発明の実施の形態7に係る通信装置2400は、入力装置2401、A/D変換装置2402及びネットワーク2404に接続されている信号処理装置2403を具備している。
【0226】
A/D変換装置2402は、入力装置2401の出力端子に接続されている。信号処理装置2403の入力端子は、A/D変換装置2402の出力端子に接続されている。信号処理装置2403の出力端子はネットワーク2404に接続されている。
【0227】
入力装置2401は、人間の耳に聞こえる音波を電気的信号であるアナログ信号に変換してA/D変換装置2402に与える。A/D変換装置2402はアナログ信号をディジタル信号に変換して信号処理装置2403に与える。信号処理装置2403は入力されてくるディジタル信号を符号化してコードを生成し、ネットワーク2404に出力する。
【0228】
このように、本発明の実施の形態の通信装置によれば、通信において前述した実施の形態1〜6に示したような効果を享受でき、少ないビット数で効率よく音響信号を符号化する音響符号化装置を提供することができる。
【0229】
(実施の形態8)
次に、本発明の実施の形態8について、図面を参照して説明する。図25は、本発明の実施の形態8に係る通信装置の構成を示すブロック図である。図25における信号処理装置2503は前述した実施の形態1から実施の形態6に示した音響復号化装置の中の1つによって構成されている点に本実施の形態の特徴がある。
【0230】
図25に示すように、本発明の実施の形態8に係る通信装置2500は、ネットワーク2501に接続されている受信装置2502、信号処理装置2503、及びD/A変換装置2504及び出力装置2505を具備している。
【0231】
受信装置2502の入力端子は、ネットワーク2501に接続されている。信号処理装置2503の入力端子は、受信装置2502の出力端子に接続されている。D/A変換装置2504の入力端子は、信号処理装置2503の出力端子に接続されている。出力装置2505の入力端子は、D/A変換装置2504の出力端子に接続されている。
【0232】
受信装置2502は、ネットワーク2501からのディジタルの符号化音響信号を受けてディジタルの受信音響信号を生成して信号処理装置2503に与える。信号処理装置2503は、受信装置2502からの受信音響信号を受けてこの受信音響信号に復号化処理を行ってディジタルの復号化音響信号を生成してD/A変換装置2504に与える。D/A変換装置2504は、信号処理装置2503からのディジタルの復号化音声信号を変換してアナログの復号化音声信号を生成して出力装置2505に与える。出力装置2505は、電気的信号であるアナログの復号化音響信号を空気の振動に変換して音波として人間の耳に聴こえるように出力する。
【0233】
このように、本実施の形態の通信装置によれば、通信において前述した実施の形態1〜6に示したような効果を享受でき、少ないビット数で効率よく符号化された音響信号を復号することができるので、良好な音響信号を出力することができる。
【0234】
(実施の形態9)
次に、本発明の実施の形態9について、図面を参照して説明する。図26は、本発明の実施の形態9に係る通信装置の構成を示すブロック図である。本発明の実施の形態9において、図26における信号処理装置2603は、前述した実施の形態1から実施の形態6に示した音響符号化器の中の1つによって構成されている点に本実施の形態の特徴がある。
【0235】
図26に示すように、本発明の実施の形態9に係る通信装置2600は、入力装置2601、A/D変換装置2602、信号処理装置2603、RF変調装置2604及びアンテナ2605を具備している。
【0236】
入力装置2601は人間の耳に聞こえる音波を電気的信号であるアナログ信号に変換してA/D変換装置2602に与える。A/D変換装置2602はアナログ信号をディジタル信号に変換して信号処理装置2603に与える。信号処理装置2603は入力されてくるディジタル信号を符号化して符号化音響信号を生成し、RF変調装置2604に与える。RF変調装置2604は、符号化音響信号を変調して変調符号化音響信号を生成し、アンテナ2605に与える。アンテナ2605は、変調符号化音響信号を電波として送信する。
【0237】
このように、本実施の形態の通信装置によれば、無線通信において前述した実施の形態1〜6に示したような効果を享受でき、少ないビット数で効率よく音響信号を符号化することができる。
【0238】
なお、本発明は、オーディオ信号を用いる送信装置、送信符号化装置又は音響信号符号化装置に適用することができる。また、本発明は、移動局装置又は基地局装置にも適用することができる。
【0239】
(実施の形態10)
次に、本発明の実施の形態10について、図面を参照して説明する。図27は、本発明の実施の形態10に係る通信装置の構成を示すブロック図である。本発明の実施の形態10において、図27における信号処理装置2703は、前述した実施の形態1から実施の形態6に示した音響復号化器の中の1つによって構成されている点に本実施の形態の特徴がある。
【0240】
図27に示すように、本発明の実施の形態10に係る通信装置2700は、アンテナ2701、RF復調装置2702、信号処理装置2703、D/A変換装置2704及び出力装置2705を具備している。
【0241】
アンテナ2701は、電波としてのディジタルの符号化音響信号を受けて電気信号のディジタルの受信符号化音響信号を生成してRF復調装置2702に与える。RF復調装置2702は、アンテナ2701からの受信符号化音響信号を復調して復調符号化音響信号を生成して信号処理装置2703に与える。
【0242】
信号処理装置2703は、RF復調装置2702からのディジタルの復調符号化音響信号を受けて復号化処理を行ってディジタルの復号化音響信号を生成してD/A変換装置2704に与える。D/A変換装置2704は、信号処理装置2703からのディジタルの復号化音声信号を変換してアナログの復号化音声信号を生成して出力装置2705に与える。出力装置2705は、電気的信号であるアナログの復号化音声信号を空気の振動に変換して音波として人間の耳に聴こえるように出力する。
【0243】
このように、本実施の形態の通信装置によれば、無線通信において前述した実施の形態1〜6に示したような効果を享受でき、少ないビット数で効率よく符号化された音響信号を復号することができるので、良好な音響信号を出力することができる。
【0244】
なお、本発明は、オーディオ信号を用いる受信装置、受信復号化装置又は音声信号復号化装置に適用することができる。また、本発明は、移動局装置又は基地局装置にも適用することができる。
【0245】
また、本発明は上記実施の形態に限定されず、種々変更して実施することが可能である。例えば、上記実施の形態では、信号処理装置として行う場合について説明しているが、これに限られるものではなく、この信号処理方法をソフトウェアとして行うことも可能である。
【0246】
例えば、上記信号処理方法を実行するプログラムを予めROM(Read Only Memory)に格納しておき、そのプログラムをCPU(Central Processor Unit)によって動作させるようにしても良い。
【0247】
また、上記信号処理方法を実行するプログラムをコンピュータで読み取り可能な記憶媒体に格納し、記憶媒体に格納されたプログラムをコンピュータのRAM(Random Access memory)に記録して、コンピュータをそのプログラムにしたがって動作させるようにしても良い。
【0248】
なお、上記説明では、時間領域から周波数領域への変換法にMDCTを用いる場合について説明を行っているがこれに限定されず直交変換であればいずれも適用できる。例えば、離散フーリエ変換または離散コサイン変換等を適用することもできる。
【0249】
なお、本発明は、オーディオ信号を用いる受信装置、受信復号化装置又は音声信号復号化装置に適用することができる。また、本発明は、移動局装置又は基地局装置にも適用することができる。
【0250】
【発明の効果】
以上説明したように、本発明の音響符号化装置及び音響符号化方法によれば、入力信号をダウンサンプリングして符号化し、符号化した信号を復号化してアップサンプリングし、このアップサンプリングした復号信号と入力信号との差分信号を符号化する符号化方法において、このアップサンプリングした復号信号から拡張レイヤで符号化の対象となる周波数を決定するため、符号化側と復号化側の両方にある信号のみで前記周波数を決定することができ、よって符号化側から復号化側にこの周波数の情報を伝送ことなく、低ビットレートで高品質に符号化を行うことができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1に係る音響符号化装置の構成を示すブロック図
【図2】音響信号の情報の分布の一例を示す図
【図3】基本レイヤと拡張レイヤで符号化の対象とする領域の一例を示す図
【図4】上記実施の形態の音響符号化装置の周波数決定部の内部構成の一例を示すブロック図
【図5】上記実施の形態の音響符号化装置の聴覚マスキング算出器の内部構成の一例を示す図
【図6】上記実施の形態の拡張レイヤ符号化器の内部構成の一例を示すブロック図
【図7】上記実施の形態の聴覚マスキング算出器の内部構成の一例を示すブロック図
【図8】本発明の実施の形態1に係る音響復号化装置の構成を示すブロック図
【図9】上記実施の形態の音響復号化装置の拡張レイヤ復号化器の内部構成の一例を示すブロック図
【図10】本発明の実施の形態2の基本レイヤ符号化器の内部構成の一例を示すブロック図
【図11】上記実施の形態の基本レイヤ復号化器の内部構成の一例を示すブロック図
【図12】上記実施の形態の基本レイヤ復号化器の内部構成の一例を示すブロック図
【図13】本発明の実施の形態3に係る音響符号化装置の周波数決定部の内部構成の一例を示すブロック図
【図14】上記実施の形態の推定誤差スペクトル算出器が算出する残差スペクトルの一例を示す図
【図15】本発明の実施の形態4に係る音響符号化装置の周波数決定部の内部構成の一例を示すブロック図
【図16】上記実施の形態の音響符号化装置の周波数決定部の内部構成の一例を示すブロック図
【図17】本発明の実施の形態5に係る音響符号化装置の拡張レイヤ符号化器の内部構成の一例を示すブロック図
【図18】上記実施の形態の順序づけ部の推定歪値の順位づけの一例を示す図
【図19】本発明の実施の形態5に係るの音響復号化装置の拡張レイヤ復号化器の内部構成の一例を示すブロック図
【図20】本発明の実施の形態6に係る音響符号化装置の拡張レイヤ符号化器の内部構成の一例を示すブロック図
【図21】本発明の実施の形態6に係る音響復号化装置の拡張レイヤ復号化器の内部構成の一例を示すブロック図
【図22】上記実施の形態の音響符号化装置の周波数決定部の内部構成の一例を示すブロック図
【図23】本発明の実施の形態6に係る音響復号化装置の拡張レイヤ復号化器の内部構成の一例を示すブロック図
【図24】本発明の実施の形態7に係る通信装置の構成を示すブロック図
【図25】本発明の実施の形態8に係る通信装置の構成を示すブロック図
【図26】本発明の実施の形態9に係る通信装置の構成を示すブロック図
【図27】本発明の実施の形態10に係る通信装置の構成を示すブロック図
【図28】音響(音楽)信号のスペクトルの一例を示す図
【符号の説明】
101 ダウンサンプリング器
102 基本レイヤ符号化器
103 局所復号化器
104 アップサンプリング器
105 遅延器
106 減算器
107、804 周波数決定部
108 拡張レイヤ符号化器
109 多重化器
401 FFT部
402 推定聴覚マスキング算出器
403 決定部
601、701 MDCT部
602 MDCT係数量子化器
801、1101 分離器
802 基本レイヤ復号化器
803 アップサンプリング器
805 拡張レイヤ復号化器
806、903 加算器
901 MDCT係数復号化器
902 IMDCT部
1102 音源生成器
1103 合成フィルタ
1301 推定誤差スペクトル算出器
1302、1502、1601 決定部
1501 推定聴覚マスキング修正部
1701、1901 順序づけ部
1702、2002、2201 MDCT係数量子化器
1902、2102、2301 MDCT係数復号化器
2001、2101 固定帯域指定部

Claims (14)

  1. 音響信号に対し聴感重み付けを施し、量子化歪みのスペクトルが前記音響信号のスペクトル包絡にマスクされるようにしてから符号化して第1符号化コードを得る第1符号化手段と、
    前記第1符号化コードを復号化して復号信号を得る復号化手段と、
    前記復号信号から得られる復号スペクトルについて聴覚マスキング閾値を算出する一方、前記復号スペクトルに対しスケール調整および平滑化を施すことにより、前記聴覚マスキング閾値と比較される誤差スペクトルを前記復号スペクトルから生成し、前記誤差スペクトルのうち当該聴覚マスキング閾値以上の振幅を示す周波数領域を特定する特定手段と、
    前記音響信号と前記復号信号との残差信号を得る減算手段と、
    前記残差信号のうち、前記特定手段によって特定された周波数領域について符号化を施し、第2符号化コードを得る第2符号化手段と、
    を具備することを特徴とする音響符号化装置。
  2. 前記第1符号化手段は、
    前記音響信号の低周波数領域について符号化を施し、
    前記第2符号化手段は、
    前記残差信号のうち、低周波数領域については、前記特定手段によって特定された周波数領域について符号化を施し、高周波数領域については、予め定められた周波数領域を符号化する、
    ことを特徴とする請求項1記載の音響符号化装置。
  3. 前記第2符号化手段は、
    各周波数における前記聴覚マスキング閾値と振幅との差を求め、当該差に基づいて符号化ビットの配分を決定する、
    ことを特徴とする請求項1記載の音響符号化装置。
  4. 前記特定手段は、
    前記聴覚マスキング閾値を平滑化し、平滑化された聴覚マスキング閾値以上の振幅を示す周波数領域を特定する、
    ことを特徴とする請求項1記載の音響符号化装置。
  5. 前記第1符号化手段は、CELP方式による符号化を行い、
    前記第2符号化手段は、MDCTによる符号化を行う、
    ことを特徴とする請求項1記載の音響符号化装置。
  6. 請求項1記載の音響符号化装置で得られた第1符号化コードを復号化して第1復号信号を得る第1復号化手段と、
    前記第1復号信号から得られる復号スペクトルについて聴覚マスキング閾値を算出する一方、前記復号スペクトルに対しスケール調整および平滑化を施すことにより、前記聴覚マスキング閾値と比較される誤差スペクトルを前記復号スペクトルから生成し、前記誤差スペクトルのうち当該聴覚マスキング閾値以上の振幅を示す周波数領域を特定する特定手段と、
    第2符号化コードのうち、前記特定手段によって特定された周波数領域について復号化を施し、第2復号信号を得る第2復号化手段と、
    前記第1復号信号と前記第2復号信号とを加算して音響信号を得る加算手段と、
    を具備することを特徴とする音響復号化装置。
  7. 前記第1復号化手段は、
    前記第1符号化コードを復号化して低周波数領域の第1復号信号を得、
    前記第2復号化手段は、
    前記第2符号化コードのうち、低周波数領域については、前記特定手段によって特定された周波数領域について復号化を施し、高周波数領域については、予め定められた周波数領域を復号化する、
    ことを特徴とする請求項6記載の音響復号化装置。
  8. 前記第2復号化手段は、
    各周波数における前記聴覚マスキング閾値と振幅との差を求め、当該差に基づいて符号化ビットの配分を決定する、
    ことを特徴とする請求項6記載の音響復号化装置。
  9. 前記特定手段は、
    前記聴覚マスキング閾値を平滑化し、平滑化された聴覚マスキング閾値以上の振幅を示す周波数領域を特定する、
    ことを特徴とする請求項6記載の音響復号化装置。
  10. 前記第1復号化手段は、CELP方式による復号化を行い、
    前記第2復号化手段は、IMDCTによる復号化を行う、
    ことを特徴とする請求項6記載の音響復号化装置。
  11. 請求項1記載の音響符号化装置あるいは請求項6記載の音響復号化装置を具備することを特徴とする通信端末装置。
  12. 請求項1記載の音響符号化装置あるいは請求項6記載の音響復号化装置を具備することを特徴とする基地局装置。
  13. 音響信号に対し聴感重み付けを施し、量子化歪みのスペクトルが前記音響信号のスペクトル包絡にマスクされるようにしてから符号化して第1符号化コードを得る第1符号化ステップと、
    前記第1符号化コードを復号化して復号信号を得る復号化ステップと、
    前記復号信号から得られる復号スペクトルについて聴覚マスキング閾値を算出する一方、前記復号スペクトルに対しスケール調整および平滑化を施すことにより、前記聴覚マスキング閾値と比較される誤差スペクトルを前記復号スペクトルから生成し、前記誤差スペクトルのうち当該聴覚マスキング閾値以上の振幅を示す周波数領域を特定する特定ステップと、
    前記音響信号と前記復号信号との残差信号を得る減算ステップと、
    前記残差信号のうち、前記特定ステップで特定された周波数領域について符号化を施し、第2符号化コードを得る第2符号化ステップと、
    を具備することを特徴とする音響符号化方法。
  14. 請求項13記載の音響符号化方法で得られた第1符号化コードを復号化して第1復号信号を得る第1復号化ステップと、
    前記第1復号信号から得られる復号スペクトルについて聴覚マスキング閾値を算出する一方、前記復号スペクトルに対しスケール調整および平滑化を施すことにより、前記聴覚マスキング閾値と比較される誤差スペクトルを前記復号スペクトルから生成し、前記誤差スペクトルのうち当該聴覚マスキング閾値以上の振幅を示す周波数領域を特定する特定ステップと、
    第2符号化コードのうち、前記特定ステップで特定された周波数領域について復号化を施し、第2復号信号を得る第2復号化ステップと、
    前記第1復号信号と前記第2復号信号とを加算して音響信号を得る加算ステップと、
    を具備することを特徴とする音響復号化方法。
JP2002267436A 2002-04-26 2002-09-12 音響符号化装置及び音響符号化方法 Expired - Lifetime JP3881946B2 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP2002267436A JP3881946B2 (ja) 2002-09-12 2002-09-12 音響符号化装置及び音響符号化方法
US10/512,407 US7752052B2 (en) 2002-04-26 2003-04-28 Scalable coder and decoder performing amplitude flattening for error spectrum estimation
CN2007101529084A CN101131820B (zh) 2002-04-26 2003-04-28 编码设备、解码设备、编码方法和解码方法
CNB038093723A CN100346392C (zh) 2002-04-26 2003-04-28 编码设备、解码设备、编码方法和解码方法
AU2003234763A AU2003234763A1 (en) 2002-04-26 2003-04-28 Coding device, decoding device, coding method, and decoding method
EP03728004.7A EP1489599B1 (en) 2002-04-26 2003-04-28 Coding device and decoding device
PCT/JP2003/005419 WO2003091989A1 (en) 2002-04-26 2003-04-28 Coding device, decoding device, coding method, and decoding method
US12/775,216 US8209188B2 (en) 2002-04-26 2010-05-06 Scalable coding/decoding apparatus and method based on quantization precision in bands

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002267436A JP3881946B2 (ja) 2002-09-12 2002-09-12 音響符号化装置及び音響符号化方法

Publications (2)

Publication Number Publication Date
JP2004102186A JP2004102186A (ja) 2004-04-02
JP3881946B2 true JP3881946B2 (ja) 2007-02-14

Family

ID=32265925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002267436A Expired - Lifetime JP3881946B2 (ja) 2002-04-26 2002-09-12 音響符号化装置及び音響符号化方法

Country Status (1)

Country Link
JP (1) JP3881946B2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1736965B1 (en) * 2004-04-28 2008-07-30 Matsushita Electric Industrial Co., Ltd. Hierarchy encoding apparatus and hierarchy encoding method
EP1758099A1 (en) * 2004-04-30 2007-02-28 Matsushita Electric Industrial Co., Ltd. Scalable decoder and expanded layer disappearance hiding method
EP1780895B1 (en) 2004-07-28 2020-07-01 III Holdings 12, LLC Signal decoding apparatus
US7895035B2 (en) * 2004-09-06 2011-02-22 Panasonic Corporation Scalable decoding apparatus and method for concealing lost spectral parameters
BRPI0516201A (pt) * 2004-09-28 2008-08-26 Matsushita Electric Ind Co Ltd aparelho de codificação escalonável e método de codificação escalonável
KR20070070174A (ko) * 2004-10-13 2007-07-03 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 부호화 장치, 스케일러블 복호 장치 및스케일러블 부호화 방법
JP4580210B2 (ja) * 2004-10-19 2010-11-10 ソニー株式会社 音声信号処理装置および音声信号処理方法
RU2007115914A (ru) * 2004-10-27 2008-11-10 Мацусита Электрик Индастриал Ко., Лтд. (Jp) Кодер звука и способ кодирования звука
KR20070084002A (ko) * 2004-11-05 2007-08-24 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 복호화 장치 및 스케일러블 부호화 장치
ES2476992T3 (es) 2004-11-05 2014-07-15 Panasonic Corporation Codificador, descodificador, método de codificación y método de descodificaci�n
BRPI0611430A2 (pt) * 2005-05-11 2010-11-23 Matsushita Electric Ind Co Ltd codificador, decodificador e seus métodos
FR2888699A1 (fr) 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
JP4682752B2 (ja) * 2005-08-22 2011-05-11 ソニー株式会社 音声符号化復号装置及び方法、並びに音声復号装置及び方法
JP5173795B2 (ja) * 2006-03-17 2013-04-03 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
JP5377287B2 (ja) 2007-03-02 2013-12-25 パナソニック株式会社 ポストフィルタ、復号装置およびポストフィルタ処理方法
JP5403949B2 (ja) * 2007-03-02 2014-01-29 パナソニック株式会社 符号化装置および符号化方法
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
JP5388849B2 (ja) * 2007-07-27 2014-01-15 パナソニック株式会社 音声符号化装置および音声符号化方法
EP2186087B1 (en) * 2007-08-27 2011-11-30 Telefonaktiebolaget L M Ericsson (PUBL) Improved transform coding of speech and audio signals
EP2193348A1 (en) * 2007-09-28 2010-06-09 Voiceage Corporation Method and device for efficient quantization of transform information in an embedded speech and audio codec
EP2224432B1 (en) * 2007-12-21 2017-03-15 Panasonic Intellectual Property Corporation of America Encoder, decoder, and encoding method
US10325371B1 (en) * 2019-01-22 2019-06-18 StradVision, Inc. Method and device for segmenting image to be used for surveillance using weighted convolution filters for respective grid cells by converting modes according to classes of areas to satisfy level 4 of autonomous vehicle, and testing method and testing device using the same
CN115577253B (zh) * 2022-11-23 2023-02-28 四川轻化工大学 一种基于几何功率的监督频谱感知方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0846517A (ja) * 1994-07-28 1996-02-16 Sony Corp 高能率符号化及び復号化システム
JP3622365B2 (ja) * 1996-09-26 2005-02-23 ヤマハ株式会社 音声符号化伝送方式
JP3134817B2 (ja) * 1997-07-11 2001-02-13 日本電気株式会社 音声符号化復号装置
JPH11251917A (ja) * 1998-02-26 1999-09-17 Sony Corp 符号化装置及び方法、復号化装置及び方法、並びに記録媒体

Also Published As

Publication number Publication date
JP2004102186A (ja) 2004-04-02

Similar Documents

Publication Publication Date Title
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
JP3881946B2 (ja) 音響符号化装置及び音響符号化方法
US7752052B2 (en) Scalable coder and decoder performing amplitude flattening for error spectrum estimation
JP5047268B2 (ja) Mdct係数を使用する音声後処理
US12009003B2 (en) Device and method for generating a high-band signal from non-linearly processed sub-ranges
EP1939862B1 (en) Encoding device, decoding device, and method thereof
US9734835B2 (en) Voice decoding apparatus of adding component having complicated relationship with or component unrelated with encoding information to decoded voice signal
EP3311381B1 (en) High-band signal generation
JP5535241B2 (ja) 音声信号復元装置および音声信号復元方法
JP2003323199A (ja) 符号化装置、復号化装置及び符号化方法、復号化方法
JP2001222297A (ja) マルチバンドハーモニック変換コーダ
EP1881488A1 (en) Encoder, decoder, and their methods
JP4603485B2 (ja) 音声・楽音符号化装置及び音声・楽音符号化方法
CN115171709B (zh) 语音编码、解码方法、装置、计算机设备和存储介质
JP4786183B2 (ja) 音声復号化装置、音声復号化方法、プログラム、記録媒体
JP2004302259A (ja) 音響信号の階層符号化方法および階層復号化方法
JP4287840B2 (ja) 符号化装置
JP4373693B2 (ja) 音響信号の階層符号化方法および階層復号化方法
JP3576485B2 (ja) 固定音源ベクトル生成装置及び音声符号化/復号化装置
JP2002149198A (ja) 音声符号化装置及び音声復号化装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050606

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060616

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061113

R150 Certificate of patent or registration of utility model

Ref document number: 3881946

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091117

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101117

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101117

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111117

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131117

Year of fee payment: 7

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term