WO2007037361A1

WO2007037361A1 - 音声符号化装置および音声符号化方法

Info

Publication number: WO2007037361A1
Application number: PCT/JP2006/319438
Authority: WO
Inventors: Masahiro Oshikiri
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2005-09-30
Filing date: 2006-09-29
Publication date: 2007-04-05
Also published as: US8396717B2; RU2008112137A; US20090157413A1; JP5089394B2; JPWO2007037361A1; EP1926083A1; CN101273404A; KR20080049085A; CN101273404B; BRPI0616624A2; EP1926083A4

Abstract

　音声信号の低域部のスペクトルを高域部に複数回複製する場合でも、スペクトルのエネルギーの連続性を保ち、音声品質の劣化を防ぐ音声符号化装置。この音声符号化装置（１００）では、ＬＰＣ量子化部（１０２）は、ＬＰＣ係数の量子化を行い、ＬＰＣ復号化部（１０３）は、量子化後のＬＰＣ係数を復号し、逆フィルタ部（１０４）は、復号ＬＰＣ係数を用いて構成した逆フィルタにより入力音声信号のスペクトルを平坦化し、周波数領域変換部（１０５）は、平坦化されたスペクトルの周波数分析を行い、第１レイヤ符号化部（１０６）は、平坦化されたスペクトルの低域部を符号化して第１レイヤ符号化データを生成し、第１レイヤ復号化部（１０７）は、第１レイヤ符号化データの復号を行って第１レイヤ復号スペクトルを生成し、第２レイヤ符号化部（１０８）は、第１レイヤ復号スペクトルを用いて平坦化されたスペクトルの高域部の符号化を行う。

Description

明細書

音声符号化装置および音声符号化方法

技術分野

[0001] 本発明は、音声符号化装置および音声符号化方法に関する。

背景技術

[0002] 移動体通信システムにおける電波資源等を有効に利用するために、音声信号を低ビットレートで圧縮することが要求されて、る。

[0003] 一方で、通話音声の品質向上や臨場感の高い通話サービスの実現が望まれている。この実現のためには、音声信号の高品質化のみならず、より帯域の広いオーディォ信号等の音声信号以外の信号をも高品質に符号ィ匕できることが望ましい。

[0004] このように相反する要求に対し、複数の符号ィ匕技術を階層的に統合するアブローチが有望視されている。具体的には、音声信号に適したモデルで入力信号を低ビットレートで符号化する第 1レイヤと、入力信号と第 1レイヤ復号信号の差分信号を音声以外の信号にも適したモデルで符号ィ匕する第 2レイヤとを階層的に組み合わせるァブローチである。このような階層構造を持つ符号ィ匕方式は、符号化されたビットストリームの一部を廃棄しても残りの情報力も復号信号が得られる特徴 (スケ一ラビリティ性 )を有するため、スケーラブル符号ィ匕と呼ばれる。スケーラブル符号ィ匕は、この特徴から、ビットレートが互いに異なるネットワーク間の通信にも柔軟に対応することができる。また、この特徴は、 IPプロトコルで多様なネットワークが統合されていく今後のネットワーク環境に適したものと、える。

[0005] 従来のスケーラブル符号化としては、 MPEG— 4 (Moving Picture Experts Group p hase-4)にて規格化された技術を用いるものがある（例えば非特許文献 1参照)。非特許文献 1記載のスケーラブル符号化では、音声信号に適した CELP (Code Excited L inear Prediction ;符号励信線形予測）を第 1レイヤに用い、原信号から第 1レイヤ復号信号を減じて得られる残差信号に対する符号化として AAC (Advanced Audio Cod er)や TwmVQ (Transform Domain Weighted interleave Vector Quantizationノのよつな変換符号ィ匕を第 2レイヤに用いる。 [0006] 一方、変換符号化において、効率良くスペクトルを符号化する技術がある（例えば特許文献 1参照)。特許文献 1記載の技術では、音声信号の周波数帯域を低域部と高域部の 2つのサブバンドに分割し、低域部のスペクトルを高域部に複製し、複製後のスペクトルに変形をカ卩えて高域部のスペクトルとする。このとき、変形情報を少ないビット数で符号ィ匕することにより、低ビットレートイ匕を図ることができる。

非特許文献 1 :三木弼ー編著， MPEG-4の全て，初版，（株)工業調査会， 1998年 9月 30日， pp.126— 127

特許文献 1：特表 2001— 521648号公報

発明の開示

発明が解決しょうとする課題

[0007] 一般に、音声信号やオーディオ信号のスペクトルは、周波数と共に緩やかに変化する成分 (スペクトル包絡）と細かく変化する成分 (スペクトル微細構造）との積で表される。一例として、図 1に音声信号のスペクトル、図 2にスペクトル包絡、図 3にスぺタトル微細構造を示す。このスペクトル包絡（図 2)は、 10次の LPC (Linear Prediction C oding)係数を用いて算出したものである。これらの図から、スペクトル包絡（図 2)とスベクトル微細構造（図 3)との積力音声信号のスペクトル（図 1)になっていることが分かる。

[0008] ここで、低域部のスペクトルを複製して高域部のスペクトルとする場合、複製元である低域部の帯域幅よりも複製先である高域部の帯域幅が広い場合には、低域部のスベクトルを 2回以上高域部に複製することになる。例えば、図 1の低域部（0— FL)から高域部 (FL— FH)にスペクトルを複製する場合、この例では FH = 2 * FLの関係があるため、低域部のスペクトルを高域部に 2回複製する必要がある。このように低域部のスペクトルを高域部に複数回複製すると、図 4に示すように、複製先のスペクトルの接続部においてスペクトルのエネルギーの不連続が生じてしまう。このような不連続が発生する原因は、スペクトル包絡にある。図 2に示すように、スペクトル包絡では周波数が上がると共にエネルギーが減衰するため、スペクトルに傾きが生じる。このようなスペクトルの傾きの存在により、低域部のスペクトルを高域部に複数回複製すると、スペクトルのエネルギーの不連続が発生し、音声品質が劣化してしまう。この不連続をゲイン調整により補正することは可能であるが、ゲイン調整にて十分な効果を得るには多くのビット数を必要としてしまう。

[0009] 本発明の目的は、低域部のスペクトルを高域部に複数回複製する場合でも、スぺクトルのエネルギーの連続性を保ち、音声品質の劣化を防ぐことができる音声符号ィ匕装置および音声符号化方法を提供することである。

課題を解決するための手段

[0010] 本発明の音声符号ィ匕装置は、音声信号の低域部のスペクトルを符号ィ匕する第 1符号化手段と、前記音声信号の LPC係数を用いて前記低域部のスぺ外ルを平坦ィ匕する平坦化手段と、平坦化された低域部のスぺ外ルを用いて前記音声信号の高域部のスペクトルを符号化する第 2符号化手段と、を具備する構成を採る。

発明の効果

[0011] 本発明によれば、スペクトルのエネルギーの連続性を保ち、音声品質の劣化を防ぐことができる。

図面の簡単な説明

[0012] [図 1]音声信号のスペクトル (従来）を示す図

[図 2]スペクトル包絡 (従来）を示す図

[図 3]スペクトル微細構造 (従来)を示す図

[図 4]低域部のスペクトルを高域部に複数回複製した場合のスペクトル (従来)を示す図

[図 5A]本発明の動作原理の説明図 (低域部の復号スペクトル）

[図 5B]本発明の動作原理の説明図（逆フィルタ通過後のスペクトル）

[図 5C]本発明の動作原理の説明図 (高域部の符号化）

[図 5D]本発明の動作原理の説明図 (復号信号のスペクトル）

[図 6]本発明の実施の形態 1に係る音声符号ィ匕装置のブロック構成図

[図 7]上記音声符号ィ匕装置の第 2レイヤ符号ィ匕部のブロック構成図

[図 8]本発明の実施の形態 1に係るフィルタリング部の動作説明図

[図 9]本発明の実施の形態 1に係る音声復号ィ匕装置のブロック構成図

[図 10]上記音声復号ィ匕装置の第 2レイヤ復号ィ匕部のブロック構成図 [図 11]本発明の実施の形態 2に係る音声符号ィ匕装置のブロック構成図

[図 12]本発明の実施の形態 2に係る音声復号ィ匕装置のブロック構成図

[図 13]本発明の実施の形態 3に係る音声符号ィ匕装置のブロック構成図

[図 14]本発明の実施の形態 3に係る音声復号ィ匕装置のブロック構成図

[図 15]本発明の実施の形態 4に係る音声符号化装置のブロック構成図

[図 16]本発明の実施の形態 4に係る音声復号化装置のブロック構成図

[図 17]本発明の実施の形態 5に係る音声符号ィ匕装置のブロック構成図

[図 18]本発明の実施の形態 5に係る音声復号ィ匕装置のブロック構成図

[図 19]本発明の実施の形態 5に係る音声符号ィ匕装置のブロック構成図 (変形例 1)

[図 20]本発明の実施の形態 5に係る音声符号ィ匕装置のブロック構成図 (変形例 2)

[図 21]本発明の実施の形態 5に係る音声復号ィ匕装置のブロック構成図 (変形例 1)

[図 22]本発明の実施の形態 6に係る第 2レイヤ符号ィ匕部のブロック構成図

[図 23]本発明の実施の形態 6に係るスペクトル変形部のブロック構成図

[図 24]本発明の実施の形態 6に係る第 2レイヤ復号ィ匕部のブロック構成図

[図 25]本発明の実施の形態 7に係るスペクトル変形部のブロック構成図

[図 26]本発明の実施の形態 8に係るスペクトル変形部のブロック構成図

[図 27]本発明の実施の形態 9に係るスペクトル変形部のブロック構成図

[図 28]本発明の実施の形態 10に係る第 2レイヤ符号ィ匕部のブロック構成図

[図 29]本発明の実施の形態 10に係る第 2レイヤ復号ィ匕部のブロック構成図

[図 30]本発明の実施の形態 11に係る第 2レイヤ符号ィ匕部のブロック構成図

[図 31]本発明の実施の形態 11に係る第 2レイヤ復号ィ匕部のブロック構成図

[図 32]本発明の実施の形態 12に係る第 2レイヤ符号ィ匕部のブロック構成図

[図 33]本発明の実施の形態 12に係る第 2レイヤ復号ィ匕部のブロック構成図発明を実施するための最良の形態

[0013] 本発明では、低域部のスペクトルを利用して高域部を符号ィ匕するにあたり、低域部のスペクトル力スペクトル包絡の影響を取り除!/、てスペクトルを平坦ィ匕し、平坦化したスペクトルを用いて高域部のスペクトルを符号ィ匕する。

[0014] まず、本発明の動作原理について図 5A〜Dを用いて説明する。 [0015] 図 5A〜Dにおいて、 FLを閾値周波数として、 0— FLを低城部、 FL— FHを高域部とする。

[0016] 図 5Aは、従来の符号化 Z復号化処理によって得られる低域部の復号スペクトルを表し、図 5Bは、図 5Aに示す復号スペクトルをスペクトル包絡と逆の特性を持つ逆フィルタに通すことにより得られるスペクトルを示す。このように、低域部の復号スペクトルをスペクトル包絡と逆の特性を持つ逆フィルタに通すことにより、低域部のスペクトルの平坦化がなされる。そして、図 5Cに示すように、平坦化された低域部のスペクトルを高域部に複数回 (ここでは 2回)複製し、高域部を符号化する。既に図 5Bに示すように低域部のスペクトルが平坦ィ匕されているため、高域部の符号ィ匕では、上記のようなスペクトル包絡に起因するスペクトルのエネルギーの不連続は発生しな、。そして、信号帯域カ^ー FHに拡張されたスペクトルに対してスペクトル包絡を付与することにより、図 5Dに示すような復号信号のスペクトルが得られる。

[0017] なお、高域部の符号ィ匕方法としては、低域部のスペクトルをピッチフィルタの内部状態に用い、周波数軸上で低、周波数から高、周波数に向力つてピッチフィルタ処理を行ってスペクトルの高域部を推定する方法を用いることができる。この符号化方法によれば、高域部の符号ィ匕では、ピッチフィルタのフィルタ情報を符号ィ匕すればよいため、低ビットレートイ匕を図ることができる。

[0018] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。

[0019] (実施の形態 1)

本実施の形態では、第 1レイヤおよび第 2レイヤの双方において周波数領域での符号ィ匕を行う場合について説明する。また、本実施の形態では、低域部のスペクトルの平坦ィ匕を行った後に、平坦ィ匕後のスペクトルを繰り返し利用して高域部のスペクトルを符号化する。

[0020] 図 6に、本発明の実施の形態 1に係る音声符号化装置の構成を示す。

[0021] 図 6に示す音声符号ィ匕装置 100において、 LPC分析部 101は、入力音声信号の L PC分析を行い、 LPC係数ひ (i) (l≤i≤NP)を算出する。ここで、 NPは LPC係数の次数を表し、例えば 10〜18が選択される。算出された LPC係数は、 LPC量子化部 1 02に入力される。 [0022] LPC量子化部 102は、 LPC係数の量子化を行う。 LPC量子化部 102は、量子化効率や安定性判定の観点から、 LPC係数を LSP (Line Spectral Pair)パラメータに変換した後に量子化する。量子化後の LPC係数は符号化データとして LPC復号化部

103および多重化部 109に入力される。

[0023] LPC復号ィ匕部 103は、量子化後の LPC係数を復号して復号 LPC係数 a (i) (1≤ i≤NP)を生成し、逆フィルタ部 104に出力する。

[0024] 逆フィルタ部 104は、復号 LPC係数を用いて逆フィルタを構成し、この逆フィルタに入力音声信号を通すことにより、入力音声信号のスペクトルを平坦ィ匕する。

[0025] 逆フィルタは式（1)または式（2)のように表される。式（2)は、平坦化の程度を制御する共振抑圧係数 γ (0< γく 1)を利用した場合の逆フィルタである。

[数 1]

A(z) = l +

… ）

[数 2]

NP

A(z/ r) = + ^ _q (i)- r^l - Z ¹ … ( 2 )

[0026] そして、式（1)で表される逆フィルタに音声信号 s (n)を入力したときに得られる出力信号 e (n)は、式（3)のように表される。

[数 3]

NP

e(n) = s(n) + ^ _q (z) - s(n - i) … （₃ )

;=1

[0027] 同様に、式（2)で表される逆フィルタに音声信号 s (n)を入力したときに得られる出力信号 e (n)は、式 (4)のように表される。

画 e(n) = s(n) +

( - Ϋ - s{n - i) … ( ₄ )

[0028] よって、この逆フィルタ処理により入力音声信号のスペクトルが平坦ィ匕される。なお、以下の説明では、逆フィルタ部 104の出力信号 (スペクトルが平坦ィ匕された音声信号)を予測残差信号と呼ぶ。

[0029] 周波数領域変換部 105は、逆フィルタ部 104から出力される予測残差信号の周波数分析を行い、変換係数として残差スペクトルを求める。周波数領域変換部 105は、例えば、 MDCT (Modified Discrete Cosine Transform ;変形離散コサイン変換）を用いて時間領域の信号を周波数領域の信号に変換する。残差スペクトルは第 1レイヤ符号ィ匕部 106および第 2レイヤ符号ィ匕部 108に入力される。

[0030] 第 1レイヤ符号ィ匕部 106は、 TwinVQ等を用いて残差スペクトルの低域部の符号化を行い、この符号ィ匕にて得られる第 1レイヤ符号ィ匕データを第 1レイヤ復号ィ匕部 10 7および多重化部 109に出力する。

[0031] 第 1レイヤ復号ィ匕部 107は、第 1レイヤ符号化データの復号を行って第 1レイヤ復号スペクトルを生成し、第 2レイヤ符号ィ匕部 108に出力する。なお、第 1レイヤ復号ィ匕部 107は、時間領域に変換される前の第 1レイヤ復号スペクトルを出力する。

[0032] 第 2レイヤ符号ィ匕部 108は、第 1レイヤ復号ィ匕部 107で得られた第 1レイヤ復号スぺタトルを用いて、残差スペクトルの高域部の符号ィ匕を行い、この符号ィ匕にて得られる第 2レイヤ符号ィ匕データを多重化部 109に出力する。第 2レイヤ符号ィ匕部 108は、第 1レイヤ復号スペクトルをピッチフィルタの内部状態に用い、ピッチフィルタリング処理により残差スペクトルの高域部を推定する。この際、第 2レイヤ符号ィ匕部 108は、スぺタトルのハーモニタス構造を崩さな、ように残差スペクトルの高域部を推定する。また、第 2レイヤ符号ィ匕部 108は、ピッチフィルタのフィルタ情報を符号ィ匕する。さらに、第 2レイヤ符号ィ匕部 108では、スペクトルが平坦ィ匕された残差スペクトルを用いて残差スペクトルの高域部を推定する。このため、フィルタリング処理により再帰的にスぺタトルが繰り返し使用されて高域部が推定されても、スペクトルのエネルギーの不連続の発生を防ぐことができる。よって、本実施の形態によれば、低ビットレートで高音質を得ることができる。なお、第 2レイヤ符号ィ匕部 108の詳細については後述する。

[0033] 多重化部 109は、第 1レイヤ符号化データ、第 2レイヤ符号ィ匕データおよび LPC係数符号ィ匕データを多重化してビットストリームを生成し、出力する。

[0034] 次いで、第 2レイヤ符号ィ匕部 108の詳細について説明する。図 7に、第 2レイヤ符号化部 108の構成を示す。

[0035] 内部状態設定部 1081には、第 1レイヤ復号ィ匕部 107より第 1レイヤ復号スペクトル Sl (k) (0≤k<FL)力入力される。内部状態設定部 1081は、この第 1レイヤ復号スベクトルを用いて、フィルタリング部 1082で用いられるフィルタの内部状態を設定する。

[0036] ピッチ係数設定部 1084は、探索部 1083からの制御に従ってピッチ係数 Tを予め定められた探索範囲 T 〜T の中で少しずつ変化させながら、フィルタリング部 10

mm max

82に順次出力する。

[0037] フィルタリング部 1082は、内部状態設定部 1081で設定されたフィルタの内部状態と、ピッチ係数設定部 1084から出力されるピッチ係数丁とに基づヽて第 1レイヤ復号スペクトルのフィルタリングを行い、残差スペクトルの推定値 S 2' (k)を算出する。このフィルタリング処理の詳細については後述する。

[0038] 探索部 1083は、周波数領域変換部 105から入力される残差スペクトル S2 (k) (0 ≤k<FH)とフィルタリング部 1082から入力される残差スペクトルの推定値 S2' (k)との類似性を示すパラメータである類似度を算出する。この類似度の算出処理は、ピッチ係数設定部 1084からピッチ係数 Tが与えられる度に行われ、算出される類似度が最大となるピッチ係数 (最適なピッチ係数) T' (T 〜Τ の範囲）が多重化部 1086

min max

に出力される。また、探索部 1083は、このピッチ係数 T'を用いて生成される残差スベクトルの推定値 S2' (k)をゲイン符号ィ匕部 1085に出力する。

[0039] ゲイン符号ィ匕部 1085は、周波数領域変換部 105から入力される残差スペクトル S2

(k) (0≤k<FH)に基づいて残差スペクトル S2 (k)のゲイン情報を算出する。なお、ここでは、このゲイン情報をサブバンド毎のスペクトルパヮで表し、周波数帯域 FL≤k く FHを J個のサブバンドに分割する場合を例にとって説明する。このとき、第 jサブバンドのスペクトルパヮ B (j)は式（5)で表される。式（5)にお!/、て、 BL (j)は第 jサブバンドの最小周波数、 BH (j)は第 jサブバンドの最大周波数を表す。このようにして求めた残差スペクトルのサブバンド情報を残差スペクトルのゲイン情報とみなす。

[数 5]

[0040] また、ゲイン符号ィ匕部 1085は、同様に、残差スペクトルの推定値 S2' (k)のサブバンド情報 B' (j)を式 (6)に従い算出し、サブバンド毎の変動量 V (j)を式 (7)に従い算出する。

[数 6]

BH(j) _/ 、

B'U) = ( 6 )

k=BL{j)

[数 7]

V(j) = ¾ … )

[0041] 次に、ゲイン符号ィ匕部 1085は、変動量 V(j)を符号化して符号化後の変動量 V (j)

q を求め、そのインデックスを多重化部 1086に出力する。

[0042] 多重化部 1086は、探索部 1083から入力される最適なピッチ係数 T'とゲイン符号化部 1085から入力される変動量 V(j)のインデックスとを多重化して、第 2レイヤ符号化データとして多重化部 109に出力する。

[0043] 次いで、フィルタリング部 1082でのフィルタリング処理の詳細について説明する。

図 8に、フィルタリング部 1082が、ピッチ係数設定部 1084から入力されるピッチ係数 Tを用いて、帯域 FL≤k<FHのスペクトルを生成する様子を示す。ここでは、全周波数帯域 (0≤ k< FH)のスペクトルを便宜的に S (k)と呼び、フィルタ関数は式（8)で表されるものを使用する。この式において、 Tはピッチ係数設定部 1084より与えられたピッチ係数を表しており、また M= lとする。

[数 8] ρω = ^ Μ¹ … （8 )

i=-M

[0044] S (k)の 0≤k<FLの帯域には、第 1レイヤ復号スペクトル Sl (k)がフィルタの内部状態として格納される。一方、 S (k)の FL≤k<FHの帯域には、以下の手順により求められた残差スペクトルの推定値 S 2' (k)が格納される。

[0045] S2' (k)には、フィルタリング処理により、 kより Tだけ低い周波数のスペクトル S (k— T)に、このスペクトルを中心として iだけ離れた近傍のスペクトル S (k—T—i)に所定の重み付け係数 βを乗じたスペクトル β · S (k-T-i)を全て加算したスペクトル、すなわち、式（9)により表されるスペクトルが代入される。そしてこの演算を、周波数の低い方（k = FL)力順に kを FL≤k< FHの範囲で変化させて行うことにより、 FL≤ k< FHにおける残差スペクトルの推定値 S2' (k)が算出される。

[数 9]

S2' (k) = Y B S{k - T - i) ■■■ ( 9 )

i=-l

[0046] 以上のフィルタリング処理は、ピッチ係数設定部 1084からピッチ係数 Tが与えられる度に、 FL≤k< FHの範囲において、その都度 S (k)をゼロクリアして行われる。すなわち、ピッチ係数 Tが変化するたびに S (k)は算出され、探索部 1083に出力される

[0047] ここで、図 8に示す例では、ピッチ係数 Tの大きさが帯域 FL— FHより小さいため、高域部（FL≤k< FH)のスペクトルは低域部（0≤k< FL)のスペクトルを再帰的に用いて生成される。低域部のスペクトルは上記のように平坦ィ匕されているため、フィルタリング処理により低域部のスペクトルを再帰的に用いて高域部のスペクトルが生成される場合でも、高域部のスペクトルにはエネルギーの不連続が生じることがない。

[0048] このように、本実施の形態によれば、スペクトル包絡の影響により高域部で発生して V、たスペクトルのエネルギーの不連続を防ぐことができ、音声品質を改善することができる。

[0049] 次いで、本実施の形態に係る音声復号ィ匕装置について説明する。図 9に、本発明の実施の形態 1に係る音声復号化装置の構成を示す。この音声復号化装置 200は、図 6に示す音声符号ィ匕装置 100から送信されるビットストリームを受信するものである

[0050] 図 9に示す音声復号ィ匕装置 200において、分離部 201は、図 6に示す音声符号ィ匕装置 100から受信されたビットストリームを、第 1レイヤ符号化データ、第 2レイヤ符号化データおよび LPC係数に分離して、第 1レイヤ符号ィ匕データを第 1レイヤ復号ィ匕部 202に、第 2レイヤ符号ィ匕データを第 2レイヤ復号ィ匕部 203に、 LPC係数を LPC復号ィ匕部 204に出力する。また、分離部 201は、レイヤ情報 (ビットストリームにどのレイャの符号ィ匕データが含まれる力を表す情報)を判定部 205に出力する。

[0051] 第 1レイヤ復号ィ匕部 202は、第 1レイヤ符号ィ匕データを用いて復号処理を行って第 1レイヤ復号スペクトルを生成し、第 2レイヤ復号ィ匕部 203および判定部 205に出力する。

[0052] 第 2レイヤ復号ィ匕部 203は、第 2レイヤ符号ィ匕データと第 1レイヤ復号スペクトルとを用いて、第 2レイヤ復号スペクトルを生成し判定部 205に出力する。なお、第 2レイヤ復号ィ匕部 203の詳細については後述する。

[0053] LPC復号ィ匕部 204は、 LPC係数符号化データを復号して得た復号 LPC係数を合成フィルタ部 207に出力する。

[0054] ここで、音声符号化装置 100は、ビットストリームに第 1レイヤ符号ィ匕データと第 2レィャ符号ィ匕データの双方を含めて送信するが、通信経路の途中で第 2レイヤ符号ィ匕データが廃棄される場合がある。そこで、判定部 205は、レイヤ情報に基づき、ビットストリームに第 2レイヤ符号ィ匕データが含まれているか否力判定する。そして、判定部 205は、ビットストリームに第 2レイヤ符号ィ匕データが含まれていない場合は、第 2レイャ復号ィ匕部 203によって第 2レイヤ復号スペクトルが生成されないため、第 1レイヤ復号スペクトルを時間領域変換部 206に出力する。但し、この場合、第 2レイヤ符号ィ匕データが含まれて!/、る場合の復号スペクトルと次数を一致させるために、判定部 205 は、第 1レイヤ復号スペクトルの次数を FHまで拡張し、 FL— FHのスペクトルを 0として出力する。一方、ビットストリームに第 1レイヤ符号ィ匕データおよび第 2レイヤ符号ィ匕データの双方が含まれている場合は、判定部 205は、第 2レイヤ復号スペクトルを時間領域変換部 206に出力する。

[0055] 時間領域変換部 206は、判定部 205から入力される復号スペクトルを時間領域の信号に変換して復号残差信号を生成し、合成フィルタ部 207に出力する。

[0056] 合成フィルタ部 207は、 LPC復号ィ匕部 204から入力される復号 LPC係数 a (i) (1

q

≤i<NP)を用いて合成フィルタを構成する。 [0057] 合成フィルタ H (z)は式（10)または式（11)のように表される。なお、式（11)において γ (0< γ < 1)は共振抑圧係数を表す。

[数 10]

H ( ( 1 0 )

[数 11]

H(z) = NP

i +∑ " ') Ά'

[0058] そして、時間領域変換部 206にて与えられる復号残差信号を e (n)として合成フィ

q

ルタ部 207へ入力すれば、式（10)で表される合成フィルタを用いた場合、出力される復号信号 s (n)は式（12)のように表される。

[数 12]

^(") = ')

[0059] 同様に、式（11)で表される合成フィルタを用いた場合、復号信号 s (n)は式（13) のように表される。

[数 13] s_q (n) = e_q (ή) - ( ) - s_q {n - i) … ( i ₃ )

[0060] 次いで、第 2レイヤ復号ィ匕部 203の詳細について説明する。図 10に、第 2レイヤ復号化部 203の構成を示す。

[0061] 内部状態設定部 2031には、第 1レイヤ復号ィ匕部 202より第 1レイヤ復号スペクトルが入力される。内部状態設定部 2031は、第 1レイヤ復号スペクトル Sl (k)を用いて、フィルタリング部 2033で用いられるフィルタの内部状態を設定する。

[0062] 一方、分離部 2032には、分離部 201より第 2レイヤ符号ィ匕データが入力される。分離部 2032は、第 2レイヤ符号ィ匕データをフィルタリング係数に関する情報 (最適なピツチ係数 T' )とゲインに関する情報 (変動量 V (j)のインデックス）とに分離し、フィルタリング係数に関する情報をフィルタリング部 2033に出力するとともに、ゲインに関する情報をゲイン復号ィ匕部 2034に出力する。

[0063] フィルタリング部 2033は、内部状態設定部 2031で設定されたフィルタの内部状態と、分離部 2032から入力されるピッチ係数 T，とに基づき第 1レイヤ復号スペクトル SI

(k)のフィルタリングを行い、残差スペクトルの推定値 S2' (k)を算出する。フィルタリング部 2033では、式（8)で示すフィルタ関数が用いられる。

[0064] ゲイン復号ィ匕部 2034は、分離部 2032から入力されるゲイン情報を復号し、変動量

V (j)を符号ィ匕して得られる変動量 V (j)を求める。

[0065] スペクトル調整部 2035は、フィルタリング部 2033から入力される復号スペクトル S' ( k)に、ゲイン復号ィ匕部 2034カゝら入力される復号されたサブバンド毎の変動量 V (j)

q を式（14)に従い乗じることにより、復号スペクトル S' (k)の周波数帯域 FL≤k<FH におけるスペクトル形状を調整し、調整後の復号スペクトル S3 (k)を生成する。この調整後の復号スペクトル S3 (k)は、第 2レイヤ復号スペクトルとして判定部 205に出力される。

[数 14]

S3(k) = S'(k)- V_q(j) (Bl(j)≤k <

… （ 1 4 )

[0066] このようにして、音声復号化装置 200は、図 6に示す音声符号化装置 100から送信されたビットストリームを復号することができる。

[0067] (実施の形態 2)

本実施の形態では、第 1レイヤにぉ、て時間領域での符号ィ匕 (例えば CELP符号ィ匕)を行う場合について説明する。また、本実施の形態では、第 1レイヤでの符号ィ匕処理中に求められる復号 LPC係数を用いて第 1レイヤ復号信号のスぺクトルの平坦化を行う。

[0068] 図 11に、本発明の実施の形態 2に係る音声符号化装置の構成を示す。図 11において、実施の形態 1 (図 6)と同一の構成部分には同一符号を付し、説明を省略する。

[0069] 図 11に示す音声符号化装置 300において、ダウンサンプリング部 301は、入力音声信号のサンプリングレートをダウンサンプリングして、所望のサンプリングレートの音声信号を第 1レイヤ符号ィ匕部 302に出力する。

[0070] 第 1レイヤ符号ィ匕部 302は、所望のサンプリングレートにダウンサンプリングされた音声信号に対して符号化処理を行って第 1レイヤ符号化データを生成し、第 1レイヤ復号ィ匕部 303および多重化部 109に出力する。第 1レイヤ符号ィ匕部 302は、例えば、 CELP符号ィ匕を用いる。第 1レイヤ符号ィ匕部 302が、 CELP符号ィ匕のように LPC係数の符号化処理を行う場合は、その符号化処理中に復号 LPC係数を生成することができる。そこで、第 1レイヤ符号ィ匕部 302は、符号化処理中に生成される第 1レイヤ復号 LPC係数を逆フィルタ部 304に出力する。

[0071] 第 1レイヤ復号ィ匕部 303は、第 1レイヤ符号ィ匕データを用いて復号処理を行って第 1レイヤ復号信号を生成し、逆フィルタ部 304に出力する。

[0072] 逆フィルタ部 304は、第 1レイヤ符号ィ匕部 302から入力される第 1レイヤ復号 LPC 係数を用ヽて逆フィルタを構成し、この逆フィルタに第 1レイヤ復号信号を通すことにより、第 1レイヤ復号信号のスペクトルを平坦化する。なお、逆フィルタの詳細については実施の形態 1と同様であるため説明を省略する。また、以下の説明では、逆フィルタ部 304の出力信号 (スペクトルが平坦化された第 1レイヤ復号信号)を第 1レイヤ復号残差信号と呼ぶ。

[0073] 周波数領域変換部 305は、逆フィルタ部 304から出力される第 1レイヤ復号残差信号の周波数分析を行って第 1レイヤ復号スペクトルを生成し、第 2レイヤ符号化部 10 8に出力する。

[0074] なお、遅延部 306は、入力音声信号に対し所定の長さの遅延を与えるためのものである。この遅延の大きさは、入力音声信号がダウンサンプリング部 301、第 1レイヤ符号化部 302、第 1レイヤ復号ィ匕部 303、逆フィルタ部 304および周波数領域変換部 305を介した際に生じる時間遅れと同値とする。

[0075] このように、本実施の形態によれば、第 1レイヤでの符号化処理中に求められる復号 LPC係数 (第 1レイヤ復号 LPC係数)を用いて第 1レイヤ復号信号のスペクトルの平坦ィ匕を行うため、第 1レイヤ符号ィ匕データの情報を用いて第 1レイヤ復号信号のスベクトルを平坦ィ匕することができる。よって、本実施の形態によれば、第 1レイヤ復号信号のスペクトルを平坦ィ匕するための LPC係数に要する符号ィ匕ビットが不要となるため、情報量の増加を伴うことなぐスペクトルの平坦ィ匕を行うことができる。

[0076] 次いで、本実施の形態に係る音声復号ィ匕装置について説明する。図 12に、本発明の実施の形態 2に係る音声復号ィ匕装置の構成を示す。この音声復号化装置 400 は、図 11に示す音声符号化装置 300から送信されるビットストリームを受信するものである。

[0077] 図 12に示す音声復号ィ匕装置 400において、分離部 401は、図 11に示す音声符号化装置 300から受信されたビットストリームを、第 1レイヤ符号化データ、第 2レイヤ符号化データおよび LPC係数符号化データに分離して、第 1レイヤ符号化データを第 1レイヤ復号ィ匕部 402に、第 2レイヤ符号ィ匕データを第 2レイヤ復号ィ匕部 405に、 LP C係数符号化データを LPC復号化部 407に出力する。また、分離部 401は、レイヤ情報 (ビットストリームにどのレイヤの符号ィ匕データが含まれる力を表す情報)を判定部 413に出力する。

[0078] 第 1レイヤ復号ィ匕部 402は、第 1レイヤ符号ィ匕データを用いて復号処理を行って第

1レイヤ復号信号を生成し、逆フィルタ部 403およびアップサンプリング部 410に出力する。また、第 1レイヤ復号ィ匕部 402は、復号処理中に生成される第 1レイヤ復号 LP

C係数を逆フィルタ部 403に出力する。

[0079] アップサンプリング部 410は、第 1レイヤ復号信号のサンプリングレートをアップサンプリングして、図 11の入力音声信号のサンプリングレートと同一にしてローパスフィルタ部 411および判定部 413に出力する。

[0080] ローパスフィルタ部 411は、通過域が 0— FLに設定されており、アップサンプリング後の第 1レイヤ復号信号の周波数帯域 0— FLのみを通過させて低域信号を生成し、加算部 412に出力する。

[0081] 逆フィルタ部 403は、第 1レイヤ復号ィ匕部 402から入力される第 1レイヤ復号 LPC 係数を用ヽて逆フィルタを構成し、この逆フィルタに第 1レイヤ復号信号を通すことにより第 1レイヤ復号残差信号を生成し、周波数領域変換部 404に出力する。

[0082] 周波数領域変換部 404は、逆フィルタ部 403から出力される第 1レイヤ復号残差信号の周波数分析を行って第 1レイヤ復号スペクトルを生成し、第 2レイヤ復号ィ匕部 40

5に出力する。

[0083] 第 2レイヤ復号ィ匕部 405は、第 2レイヤ符号ィ匕データと第 1レイヤ復号スペクトルとを用いて、第 2レイヤ復号スペクトルを生成し時間領域変換部 406に出力する。なお、第 2レイヤ復号ィ匕部 405の詳細については、実施の形態 1の第 2レイヤ復号ィ匕部 203

(図 9)と同様であるため説明を省略する。

[0084] 時間領域変換部 406は、第 2レイヤ復号スペクトルを時間領域の信号に変換して第

2レイヤ復号残差信号を生成し、合成フィルタ部 408に出力する。

[0085] LPC復号ィ匕部 407は、 LPC係数を復号して得た復号 LPC係数を合成フィルタ部 4

08に出力する。

[0086] 合成フィルタ部 408は、 LPC復号ィ匕部 407から入力される復号 LPC係数を用いて合成フィルタを構成する。なお、合成フィルタ部 408の詳細については、実施の形態 1の合成フィルタ部 207 (図 9)と同様であるため説明を省略する。合成フィルタ部 408 は、実施の形態 1と同様にして第 2レイヤ合成信号 s (n)を生成し、ハイパスフィルタ部 409に出力する。

[0087] ノ、ィパスフィルタ部 409は、通過域力FL—FHに設定されており、第 2レイヤ合成信号の周波数帯域 FL— FHのみを通過させて高域信号を生成し、加算部 412に出力する。

[0088] 加算部 412は、低域信号と高域信号とを加算して第 2レイヤ復号信号を生成し、判定部 413に出力する。

[0089] 判定部 413は、分離部 401より入力されるレイヤ情報に基づき、ビットストリームに第 2レイヤ符号ィ匕データが含まれている力否力判定し、第 1レイヤ復号信号または第 2 レイヤ復号信号のいずれかを選択して復号信号として出力する。判定部 413は、ビットストリームに第 2レイヤ符号ィ匕データが含まれていない場合は第 1レイヤ復号信号を出力し、ビットストリームに第 1レイヤ符号ィ匕データおよび第 2レイヤ符号ィ匕データの双方が含まれて、る場合は第 2レイヤ復号信号を出力する。

[0090] なお、ローパスフィルタ部 411およびハイパスフィルタ部 409は、低域信号と高域信号との間で互いに与える影響を緩和するために用いられる。よって、低域信号と高域信号との間で互いに与える影響が小さい場合は、音声復号化装置 400を、これらのフィルタを用いない構成としてもよい。これらのフィルタを用いない場合、フィルタリングに係る演算が不要になるため、演算量を削減することができる。

[0091] このようにして、音声復号化装置 400は、図 11に示す音声符号化装置 300から送信されたビットストリームを復号することができる。

[0092] (実施の形態 3)

第 1レイヤ音源信号のスペクトルは、入力音声信号からスペクトル包絡の影響を取り除いた予測残差信号のスペクトルと同様に平坦化されている。そこで、本実施の形態では、第 1レイヤでの符号ィ匕処理中に求められる第 1レイヤ音源信号を、スペクトルが平坦化された信号 (すなわち、実施の形態 2における第 1レイヤ復号残差信号)とみなして処理を行う。

[0093] 図 13に、本発明の実施の形態 3に係る音声符号化装置の構成を示す。図 13において、実施の形態 2 (図 11)と同一の構成部分には同一符号を付し、説明を省略する

[0094] 第 1レイヤ符号ィ匕部 501は、所望のサンプリングレートにダウンサンプリングされた音声信号に対して符号化処理を行って第 1レイヤ符号化データを生成し、多重化部 109に出力する。第 1レイヤ符号ィ匕部 501は、例えば、 CELP符号ィ匕を用いる。また、第 1レイヤ符号ィ匕部 501は、符号ィ匕処理中に生成される第 1レイヤ音源信号を周波数領域変換部 502に出力する。なお、ここでいう音源信号とは、 CELP符号ィ匕を行う第 1レイヤ符号化部 501の内部にある合成フィルタ (または聴覚重み付き合成フィルタ）に入力される信号を指し、駆動信号とも呼ばれる。

[0095] 周波数領域変換部 502は、第 1レイヤ音源信号の周波数分析を行って第 1レイヤ復号スペクトルを生成し、第 2レイヤ符号ィ匕部 108に出力する。

[0096] なお、遅延部 503の遅延の大きさは、入力音声信号がダウンサンプリング部 301、第 1レイヤ符号ィ匕部 501および周波数領域変換部 502を介した際に生じる時間遅れと同値とする。

[0097] このように、本実施の形態によれば、実施の形態 2 (図 11)に比べ、第 1レイヤ復号化部 303および逆フィルタ部 304が不要となるため、演算量を削減することができる。

[0098] 次いで、本実施の形態に係る音声復号化装置について説明する。図 14に、本発明の実施の形態 3に係る音声復号ィ匕装置の構成を示す。この音声復号化装置 600 は、図 13に示す音声符号ィ匕装置 500から送信されるビットストリームを受信するものである。図 14において、実施の形態 2 (図 12)と同一の構成部分には同一符号を付し、説明を省略する。

[0099] 第 1レイヤ復号ィ匕部 601は、第 1レイヤ符号ィ匕データを用いて復号処理を行って第 1レイヤ復号信号を生成し、アップサンプリング部 410に出力する。また、第 1レイヤ復号ィ匕部 601は、復号処理中に生成される第 1レイヤ音源信号を周波数領域変換部 6 02に出力する。

[0100] 周波数領域変換部 602は、第 1レイヤ音源信号の周波数分析を行って第 1レイヤ復号スペクトルを生成し、第 2レイヤ復号ィ匕部 405に出力する。

[0101] このようにして、音声復号化装置 600は、図 13に示す音声符号ィ匕装置 500から送信されたビットストリームを復号することができる。

[0102] (実施の形態 4)

本実施の形態では、第 2レイヤで求めた第 2レイヤ復号 LPC係数を用いて、第 1レィャ復号信号および入力音声信号それぞれのスペクトルを平坦ィ匕する。

[0103] 図 15に、本発明の実施の形態 4に係る音声符号ィ匕装置 700の構成を示す。図 15 において、実施の形態 2 (図 11)と同一の構成部分には同一符号を付し、説明を省略する。

[0104] 第 1レイヤ符号ィ匕部 701は、所望のサンプリングレートにダウンサンプリングされた音声信号に対して符号化処理を行って第 1レイヤ符号化データを生成し、第 1レイヤ復号ィ匕部 702および多重化部 109に出力する。第 1レイヤ符号ィ匕部 701は、例えば、 CELP符号ィ匕を用いる。

[0105] 第 1レイヤ復号ィ匕部 702は、第 1レイヤ符号ィ匕データを用いて復号処理を行って第 1レイヤ復号信号を生成し、アップサンプリング部 703に出力する。

[0106] アップサンプリング部 703は、第 1レイヤ復号信号のサンプリングレートをアップサンプリングして入力音声信号のサンプリングレートと同一にし、逆フィルタ部 704に出力する。

[0107] 逆フィルタ部 704には、逆フィルタ部 104と同様、 LPC復号化部 103から復号 LPC 係数が入力される。逆フィルタ部 704は、復号 LPC係数を用いて逆フィルタを構成し、この逆フィルタにアップサンプリング後の第 1レイヤ復号信号を通すことにより、第 1 レイヤ復号信号のスペクトルを平坦化する。なお、以下の説明では、逆フィルタ部 70 4の出力信号 (スぺ外ルが平坦化された第 1レイヤ復号信号)を第 1レイヤ復号残差信号と呼ぶ。

[0108] 周波数領域変換部 705は、逆フィルタ部 704から出力される第 1レイヤ復号残差信号の周波数分析を行って第 1レイヤ復号スペクトルを生成し、第 2レイヤ符号化部 10 8に出力する。

[0109] なお、遅延部 706の遅延の大きさは、入力音声信号がダウンサンプリング部 301、第 1レイヤ符号ィ匕部 701、第 1レイヤ復号ィ匕部 702、アップサンプリング部 703、逆フィルタ部 704および周波数領域変換部 705を介した際に生じる時間遅れと同値とする。

[0110] 次いで、本実施の形態に係る音声復号ィ匕装置について説明する。図 16に、本発明の実施の形態 4に係る音声復号化装置の構成を示す。この音声復号化装置 800 は、図 15に示す音声符号ィ匕装置 700から送信されるビットストリームを受信するものである。図 16において、実施の形態 2 (図 12)と同一の構成部分には同一符号を付し、説明を省略する。

[0111] 第 1レイヤ復号ィ匕部 801は、第 1レイヤ符号ィ匕データを用いて復号処理を行って第 1レイヤ復号信号を生成し、アップサンプリング部 802に出力する。

[0112] アップサンプリング部 802は、第 1レイヤ復号信号のサンプリングレートをアップサンプリングして図 15の入力音声信号のサンプリングレートと同一にし、逆フィルタ部 803 および判定部 413に出力する。

[0113] 逆フィルタ部 803には、合成フィルタ部 408と同様、 LPC復号化部 407から復号 LP C係数が入力される。逆フィルタ部 803は、復号 LPC係数を用いて逆フィルタを構成し、この逆フィルタにアップサンプリング後の第 1レイヤ復号信号を通すことにより第 1 レイヤ復号信号のスペクトルを平坦ィ匕し、第 1レイヤ復号残差信号を周波数領域変換部 804に出力する。

[0114] 周波数領域変換部 804は、逆フィルタ部 803から出力される第 1レイヤ復号残差信号の周波数分析を行って第 1レイヤ復号スペクトルを生成し、第 2レイヤ復号ィ匕部 40 5に出力する。

[0115] このようにして、音声復号化装置 800は、図 15に示す音声符号ィ匕装置 700から送信されたビットストリームを復号することができる。

[0116] このように、本実施の形態によれば、音声符号化装置において、第 2レイヤで求めた第 2レイヤ復号 LPC係数を用いて、第 1レイヤ復号信号および入力音声信号それぞれのスペクトルを平坦化するため、音声復号化装置では、音声符号化装置と共通の LPC係数を用いて第 1レイヤ復号スペクトルを求めることができる。よって、本実施の形態によれば、音声復号化装置では、復号信号を生成するにあたり、実施の形態 2, 3のような低域部と高域部とに分離した処理を行う必要がなくなるためローパスフィルタおよびノヽィパスフィルタが不要となり装置構成が簡単になるとともに、フィルタリング処理に係る演算量を削減することができる。

[0117] (実施の形態 5)

本実施の形態は、スペクトルの平坦ィ匕を行う逆フィルタの共振抑圧係数を入力音声信号の特性に応じて適応的に変化させて平坦ィ匕の程度を制御するものである。

[0118] 図 17に、本発明の実施の形態 5に係る音声符号化装置 900の構成を示す。図 17 において、実施の形態 4 (図 15)と同一の構成部分には同一符号を付し、説明を省略する。

[0119] 音声符号化装置 900において、逆フィルタ部 904, 905は、式（2)により表される。

[0120] 特徴量分析部 901は、入力音声信号を分析して特徴量を算出し、特徴量符号ィ匕部 902に出力する。特徴量としては、共振による音声スペクトルの強度を表すパラメータを用いる。具体的には、例えば、隣り合う LSPパラメータ間の距離を用いる。一般に、この距離が小さいほど共振の程度が強ぐ共振周波数に対応するスペクトルのェネルギ一が大きく現れる。共振が強く現れる音声区間では、平坦化処理により、共振周波数近傍でのスペクトルが過度に減衰されて音質劣化の原因となる。これを防ぐために、共振が強く現れる音声区間では上記の共振抑圧係数 γ (0< γ < 1)を小さく設定して平坦化の程度を弱める。これにより、平坦化処理による共振周波数近傍でのスペクトルの過度な減衰を防止でき、音声品質の劣化を抑えることができる。

[0121] 特徴量符号ィ匕部 902は、特徴量分析部 901より入力される特徴量を符号化して特徴量符号ィ匕データを生成し、特徴量復号ィ匕部 903および多重化部 906に出力する [0122] 特徴量復号ィ匕部 903は、特徴量符号ィ匕データを用いて特徴量を復号し、復号特徴量に応じて逆フィルタ部 904, 905で用いる共振抑圧係数 γを決定して逆フィルタ部 904, 905に出力する。特徴量として周期性の強さを表すパラメータが用いられる場合、入力音声信号の周期性が強いほど共振抑圧係数 γを大きくし、入力音声信号の周期性が弱いほど共振抑圧係数 γを小さくする。このように共振抑圧係数 γを制御することにより、有声部ではより強くスペクトルの平坦ィヒが行われ、無声部ではスぺタトルの平坦ィ匕の程度が弱まる。よって、無声部での過度なスペクトルの平坦ィ匕を防ぐことができ、音声品質の劣化を抑えることができる。

[0123] 逆フィルタ部 904, 905は、特徴量復号化部 903によって制御される共振抑圧係数 yに応じて、式（2)に従って逆フィルタ処理を行う。

[0124] 多重化部 906は、第 1レイヤ符号化データ、第 2レイヤ符号化データ、 LPC係数および特徴量符号ィ匕データを多重化してビットストリームを生成し、出力する。

[0125] なお、遅延部 907の遅延の大きさは、入力音声信号がダウンサンプリング部 301、第 1レイヤ符号ィ匕部 701、第 1レイヤ復号ィ匕部 702、アップサンプリング部 703、逆フィルタ部 905および周波数領域変換部 705を介した際に生じる時間遅れと同値とする。

[0126] 次いで、本実施の形態に係る音声復号ィ匕装置について説明する。図 18に、本発明の実施の形態 5に係る音声復号ィ匕装置の構成を示す。この音声復号ィ匕装置 1000 は、図 17に示す音声符号ィ匕装置 900から送信されるビットストリームを受信するものである。図 18において、実施の形態 4 (図 16)と同一の構成部分には同一符号を付し、説明を省略する。

[0127] 音声符号化装置 1000において、逆フィルタ部 1003は、式（2)により表される。

[0128] 分離部 1001は、図 17に示す音声符号ィ匕装置 900から受信されたビットストリームを、第 1レイヤ符号化データ、第 2レイヤ符号化データ、 LPC係数符号化データおよび特徴量符号ィ匕データに分離して、第 1レイヤ符号ィ匕データを第 1レイヤ復号ィ匕部 8 01に、第 2レイヤ符号ィ匕データを第 2レイヤ復号ィ匕部 405に、 LPC係数を LPC復号化部 407に、特徴量符号ィ匕データを特徴量復号ィ匕部 1002に出力する。また、分離部 1001は、レイヤ情報（ビットストリームにどのレイヤの符号ィ匕データが含まれるかを表す情報)を判定部 413に出力する。

[0129] 特徴量復号ィ匕部 1002は、特徴量復号化部 903 (図 17)同様、特徴量符号化データを用いて特徴量を復号し、復号特徴量に応じて逆フィルタ部 1003で用いる共振抑圧係数 0を決定して逆フィルタ部 1003に出力する。

[0130] 逆フィルタ部 1003は、特徴量復号化部 1002によって制御される共振抑圧係数 γ に応じて、式（2)に従って逆フィルタ処理を行う。

[0131] このようにして、音声復号化装置 1000は、図 17に示す音声符号ィ匕装置 900から送信されたビットストリームを復号することができる。

[0132] なお、 LPC量子化部 102 (図 17)は、上記のように、 LPC係数をー且 LSPパラメ一タに変換した後に量子化する。そこで、本実施の形態においては、音声符号化装置の構成を図 19に示すようにしてもよい。すなわち、図 19に示す音声符号化装置 110 0では、特徴量分析部 901を設けずに、 LPC量子化部 102が LSPパラメータ間の距離を算出して特徴量符号ィ匕部 902に出力する。

[0133] さらに、 LPC量子化部 102が復号 LSPパラメータを生成する場合には、音声符号化装置の構成を図 20に示すようにしてもよい。すなわち、図 20に示す音声符号化装置 1300では、特徴量分析部 901、特徴量符号ィ匕部 902および特徴量復号ィ匕部 90 3を設けずに、 LPC量子化部 102が、復号 LSPパラメータを生成し、復号 LSPパラメータ間の距離を算出して逆フィルタ部 904, 905に出力する。

[0134] また、図 20に示す音声符号ィ匕装置 1300から送信されたビットストリームを復号する音声復号ィ匕装置 1400の構成を図 21に示す。図 21において、 LPC復号ィ匕部 407は、さらに、復号 LPC係数力も復号 LSPパラメータを生成し、復号 LSPパラメータ間の距離を算出して逆フィルタ部 1003に出力する。

[0135] (実施の形態 6)

音声信号やオーディオ信号では、複製元である低域部のスペクトルのダイナミックレンジ (スペクトルの振幅の最大値と最小値との比）が複製先である高域部のスぺタトルのダイナミックレンジより大きくなる状況がよく発生する。このような状況において低域部のスペクトルを複製して高域部のスペクトルとする場合、高域部にスペクトルの過大なピークが発生する。そして、このように過大なピークを有するスペクトルを時間領域に変換して得られる復号信号には、鈴が鳴るように聞こえるノイズが発生し、その結果、主観品質が低下してしまう。

[0136] これに対し、主観品質の改善を図るために、低域部のスペクトルを変形して低域部のスペクトルのダイナミックレンジを高域部のスペクトルのダイナミックレンジに近づける技術が提案されている（例えば、押切，江原，吉田， "ピッチフィルタリングに基づくスペクトル符号ィ匕を用いた超広帯域スケーラブル音声符号ィ匕の改善", 2004年秋季音講論集 2-4-13, pp.297-298, 2004年 9月、参照)。この技術では、低域部のスぺタトルをどのように変形したかを表す変形情報を音声符号化装置から音声復号化装置へ送信する必要がある。

[0137] ここで、音声符号化装置においてこの変形情報を符号化する際に、符号化候補の数が十分でない場合、すなわち、低ビットレートの場合には大きな量子化誤差が発生する。そして、このような大きな量子化誤差が発生すると、その量子化誤差に起因して低域部のスペクトルのダイナミックレンジの調整が十分に行われず、その結果品質劣化を招くことがある。特に、高域部のスペクトルのダイナミックレンジより大きなダイナミックレンジを表す符号化候補が選択された場合、高域部のスペクトルに過大なピークが発生しやすくなり、品質劣化が顕著に現れてしまうことがある。

[0138] そこで、本実施の形態では、低域部のスペクトルのダイナミックレンジを高域部のスベクトルのダイナミックレンジに近づける技術を上記各実施の形態に適用する場合において、第 2レイヤ符号ィ匕部 108が変形情報を符号ィ匕する際に、ダイナミックレンジが小さくなる符号ィ匕候補をダイナミックレンジが大きくなる符号ィ匕候補よりも選択されやすくする。

[0139] 図 22に、本発明の実施の形態 6に係る第 2レイヤ符号ィ匕部 108の構成を示す。図 2 2において、実施の形態 1 (図 7)と同一の構成部分には同一符号を付し、説明を省略する。

[0140] 図 22に示す第 2レイヤ符号ィ匕部 108において、スペクトル変形部 1087には、第 1 レイヤ復号ィ匕部 107より第 1レイヤ復号スペクトル Sl (k) (0≤k<FL)が入力され、周波数領域変換部 105より残差スペクトル S2 (k) (0≤k<FH)が入力される。スぺタトル変形部 1087は、復号スペクトル SI (k)のダイナミックレンジを適切なダイナミックレンジとするために、復号スペクトル SI (k)を変形させて復号スペクトル S I (k)のダイナミックレンジを変化させる。そして、スペクトル変形部 1087は、復号スペクトル SI (k) をどのように変形した力を表す変形情報を符号ィ匕して多重化部 1086に出力する。また、スペクトル変形部 1087は、変形後の復号スペクトル (変形復号スペクトル) Sl' (j, k)を内部状態設定部 1081に出力する。

[0141] スペクトル変形部 1087の構成を図 23に示す。スペクトル変形部 1087は、復号スベクトル S I (k)を変形して復号スペクトル SI (k)のダイナミックレンジを残差スぺタトル S2 (k)の高域部（FL≤k< FH)のダイナミックレンジに近づける。また、スペクトル変形部 1087は、変形情報を符号化して出力する。

[0142] 図 23に示すスペクトル変形部 1087において、変形スペクトル生成部 1101は、復号スペクトル S I (k)を変形して変形復号スペクトル SI' (j,k)を生成し、サブバンドエネルギー算出部 1102に出力する。ここで、 jは符号帳 1111の各符号ィ匕候補 (各変形情報）を識別するためのインデックスであり、変形スペクトル生成部 1101では、符号帳 1111に含まれる各符号化候補 (各変形情報)を用いて復号スペクトル SI (k)の変形が行われる。ここでは、指数関数を用いてスペクトルの変形を行う場合を一例に挙げる。例えば、符号帳 1111に含まれる符号化候補を a (j)と表したとき、各符号化候補 a (j)は 0≤ a (j)≤1の範囲にあるものとする。よって、変形復号スペクトル Sl' ( j,k)は、式（15)のように表される。

[数 15]

[0143] ここで、 sign ()は正または負の符号を返す関数を表す。よって、符号化候補 a (j)が 0に近い値をとるほど変形復号スペクトル S I' (j,k)のダイナミックレンジは小さくなる。

[0144] サブバンドエネルギー算出部 1102は、変形復号スペクトル SI' (j,k)の周波数帯域を複数のサブバンドに分割し、各サブバンドの平均エネルギー（サブバンドエネルギ一） P 1 (j ,η)を求めて分散算出部 1103に出力する。ここで ηはサブバンド番号を表す

[0145] 分散算出部 1103は、サブバンドエネルギー PI (j,n)のばらつきの程度を表すために、サブバンドエネルギー Pl (j,n)の分散 σ l (j) ²を求める。そして、分散算出部 110 3は、符号ィ匕候補 (変形情報) jにおける分散 σ 1 (j) ²を減算部 1106に出力する。

[0146] 一方、サブバンドエネルギー算出部 1104は、残差スペクトル S2 (k)の高域部を複数のサブバンドに分割し、各サブバンドの平均エネルギー（サブバンドエネルギー） P

2 (n)を求めて分散算出部 1105に出力する。

[0147] 分散算出部 1105は、サブバンドエネルギー P2 (n)のばらつきの程度を表すために、サブバンドエネルギー P2 (n)の分散 σ 2²を求め、減算部 1106に出力する。

[0148] 減算部 1106は、分散 σ 2²から分散 σ 1 (j) ²を減じ、この減算により得られる誤差信号を判定部 1107および重み付き誤差算出部 1108に出力する。

[0149] 判定部 1107は、誤差信号の符号 (正または負）を判定し、判定結果に基づいて、重み付き誤差算出部 1108に与える重み（ウェイト）を決定する。判定部 1107は、誤差信号の符号が正である場合には w を、負である場合には w を重みとして選択

pos neg

し、重み付き誤差算出部 1108に出力する。 w と w との間には式（16)に示す大

pos neg

小関係がある。

[数 16]

0 < w pos < w neg … 、 1 6 ) '

[0150] 重み付き誤差算出部 1108は、まず、減算部 1106から入力される誤差信号の 2乗値を算出し、次に、判定部 1107から入力される重み w(w または w )を誤差信号

pos neg

の 2乗値に乗じて重み付き 2乗誤差 Eを算出し、探索部 1109に出力する。重み付き 2 乗誤差 Eは式（17)のように表される。

[数 17]

w_pos) … （ 1 7 )

[0151] 探索部 1109は、符号帳 1111を制御して符号帳 1111に格納されている符号ィ匕候補 (変形情報)を順次変形スペクトル生成部 1101に出力させ、重み付き 2乗誤差 Eが最小となる符号化候補 (変形情報)を探索する。そして、探索部 1109は、重み付き 2 乗誤差 Eが最小となる符号化候補のインデックス j を最適変形情報として変形スぺ

opt

タトル生成部 1110および多重化部 1086に出力する。 [0152] 変形スペクトル生成部 1110は、復号スペクトル SI (k)を変形して最適変形情報 j

opt に対応する変形復号スペクトル SI' (j ,k)を生成し、内部状態設定部 1081に出力

opt

する。

[0153] 次いで、本実施の形態に係る音声復号ィ匕装置の第 2レイヤ復号ィ匕部 203について説明する。図 24に、本発明の実施の形態 6に係る第 2レイヤ復号ィ匕部 203の構成を示す。図 24において、実施の形態 1 (図 10)と同一の構成部分には同一符号を付し、説明を省略する。

[0154] 第 2レイヤ復号ィ匕部 203において、変形スペクトル生成部 2036は、分離部 2032から入力される最適変形情報 j に基づいて、第 1レイヤ復号ィ匕部 202から入力される

opt

第 1レイヤ復号スペクトル SI (k)を変形して変形復号スペクトル SI' (j ,k)を生成し、

opt

内部状態設定部 2031に出力する。つまり、変形スペクトル生成部 2036は、音声符号化装置側の変形スペクトル生成部 1110に対応して備えられ、変形スペクトル生成部 1110と同様の処理を行う。

[0155] 上記のように、重み付き 2乗誤差を算出するときの重みを誤差信号の符号に応じて決定し、かつ、その重みが式（16)に示す関係がある場合、次のことが言える。

[0156] すなわち、誤差信号が正の場合とは、変形復号スペクトル S1'のばらつきの程度が目標値である残差スペクトル S2のばらつきの程度よりも小さくなる場合である。つまりこれは、音声復号ィ匕装置側で生成される変形復号スペクトル S1'のダイナミックレンジが残差スペクトル S2のダイナミックレンジよりも小さくなることに相当する。

[0157] 一方、誤差信号が負の場合とは、変形復号スペクトル S1'のばらつきの程度が目標値である残差スペクトル S2のばらつきの程度よりも大きくなる場合である。つまりこれは、音声復号ィ匕装置側で生成される変形復号スペクトル S1'のダイナミックレンジが残差スペクトル S2のダイナミックレンジよりも大きくなることに相当する。

[0158] よって、式（16)に示すように誤差信号が正の場合の重み w を誤差信号が負の場

pos

合の重み w よりも小さく設定すること〖こより、 2乗誤差が同程度の値の場合、残差ス

neg

ベクトル S2のダイナミックレンジよりも小さいダイナミックレンジとなる変形復号スぺクトル S1'を生成するような符号ィ匕候補が選択されやすくなる。つまり、ダイナミックレンジを抑える符号ィ匕候補が優先的に選択されるようになる。よって、音声復号化装置で生成される推定スペクトルのダイナミックレンジが残差スペクトルの高域部のダイナミックレンジよりも大きくなる頻度が減少する。

[0159] ここで、変形復号スペクトル S1'のダイナミックレンジが目標となるスペクトルのダイナミックレンジよりも大きくなると、音声復号化装置では推定スペクトルに過大なピークが出現し人間の耳に品質劣化として知覚されやすくなるのに対し、変形復号スペクトル S1'のダイナミックレンジが目標となるスペクトルのダイナミックレンジよりも小さくなると、音声復号ィ匕装置では推定スペクトルに上記のような過大なピークが発生しにくくなる。よって、本実施の形態によれば、低域部のスペクトルのダイナミックレンジを高域部のスペクトルのダイナミックレンジに合わせる技術を実施の形態 1に適用する場合にお、て、聴感的な音質の劣化を防止することができる。

[0160] なお、上記説明では、スペクトル変形方法として指数関数を用いたものを一例に挙げたが、これに限定されず、例えば対数関数を用いたスペクトル変形等、他のスぺクトル変形方法を用いてもょ、。

[0161] また、上記説明ではサブバンドの平均エネルギーの分散を用いる場合について説明したが、スペクトルのダイナミックレンジの大きさを表す指標でさえあれば、サブバンドの平均エネルギーの分散に限定されるものではない。

[0162] (実施の形態 7)

図 25に、本発明の実施の形態 7に係るスペクトル変形部 1087の構成を示す。図 2 5において、実施の形態 6 (図 23)と同一の構成部分には同一符号を付し、説明を省略する。

[0163] 図 25に示すスペクトル変形部 1087において、ばらつき度算出部 1112— 1は、復号スペクトル SI (k)の低域部の値の分布力復号スペクトル SI (k)のばらつき度を算出し、閾値設定部 1113— 1,1113— 2に出力する。ばらつき度とは、具体的には復号スペクトル SI (k)の標準偏差 σ 1である。

[0164] 閾値設定部 1113— 1は、標準偏差 σ 1を用いて第 1閾値 TH1を求めて平均スぺクトル算出部 1114— 1および変形スペクトル生成部 1110に出力する。ここで、第 1閾値 TH1とは、復号スペクトル SI (k)のうち比較的振幅の大きなスペクトルを特定するための閾値であり、標準偏差 σ 1に所定の定数 aを乗じた値が使用される。 [0165] 閾値設定部 1113— 2は、標準偏差 σ 1を用いて第 2閾値 TH2を求めて平均スぺクトル算出部 1114— 2および変形スペクトル生成部 1110に出力する。ここで、第 2閾値 ΤΗ2とは、復号スペクトル SI (k)の低域部のうち比較的振幅の小さなスペクトルを特定するための閾値であり、標準偏差 σ 1に所定の定数 b (< a)を乗じた値が使用される。

[0166] 平均スペクトル算出部 1114— 1は、第 1閾値 TH1よりも振幅が大きいスペクトルの平均振幅値 (以下、第 1平均値という）を求め、変形ベクトル算出部 1115に出力する。具体的には、平均スペクトル算出部 1114— 1は、復号スペクトル Sl (k)の低域部のスペクトルの値を、復号スペクトル SI (k)の平均値 mlに第 1閾値 TH1を加えた値（ ml +TH1)と比較し、この値よりも大きな値を有するスペクトルを特定する (ステップ 1 ) o次に、平均スペクトル算出部 1114— 1は、復号スペクトル Sl (k)の低域部のスぺタトルの値を、復号スペクトル SI (k)の平均値 mlから第 1閾値 TH1を減じた値 (ml -TH1)と比較し、この値よりも小さな値を有するスペクトルを特定する (ステップ 2)。そして、平均スペクトル算出部 1114— 1は、ステップ 1およびステップ 2の双方で求まつたスペクトルの振幅の平均値を求め、変形ベクトル算出部 1115に出力する。

[0167] 平均スペクトル算出部 1114— 2は、第 2閾値 TH2よりも振幅が小さいスペクトルの平均振幅値 (以下、第 2平均値という）を求め、変形ベクトル算出部 1115に出力する。具体的には、平均スペクトル算出部 1114— 2は、復号スペクトル Sl (k)の低域部のスペクトルの値を、復号スペクトル SI (k)の平均値 mlに第 2閾値 TH2を加えた値（ ml +TH2)と比較し、この値よりも小さな値を有するスペクトルを特定する (ステップ 1 ) o次に、平均スペクトル算出部 1114— 2は、復号スペクトル Sl (k)の低域部のスぺタトルの値を、復号スペクトル SI (k)の平均値 mlから第 2閾値 TH2を減じた値 (ml -TH2)と比較し、この値よりも大きな値を有するスペクトルを特定する (ステップ 2)。そして、平均スペクトル算出部 1114— 2は、ステップ 1およびステップ 2の双方で求まつたスペクトルの振幅の平均値を求め、変形ベクトル算出部 1115に出力する。

[0168] 一方、ばらつき度算出部 1112— 2は、残差スペクトル S2 (k)の高域部の値の分布力残差スペクトル S2 (k)のばらつき度を算出し、閾値設定部 1113— 3, 1113—4 に出力する。ばらつき度とは、具体的には残差スペクトル S2 (k)の標準偏差 σ 2である。

[0169] 閾値設定部 1113— 3は、標準偏差 σ 2を用いて第 3閾値 TH3を求めて平均スぺクトル算出部 1114— 3に出力する。ここで、第 3閾値 ΤΗ3とは、残差スペクトル S2 (k) の高域部のうち比較的振幅の大きなスペクトルを特定するための閾値であり、標準偏差 σ 2に所定の定数 cを乗じた値が使用される。

[0170] 閾値設定部 1113— 4は、標準偏差 σ 2を用いて第 4閾値 ΤΗ4を求めて平均スぺクトル算出部 1114— 4に出力する。ここで、第 4閾値 ΤΗ4とは、残差スペクトル S2 (k) の高域部のうち比較的振幅の小さなスペクトルを特定するための閾値であり、標準偏差 σ 2に所定の定数 d (< c)を乗じた値が使用される。

[0171] 平均スペクトル算出部 1114— 3は、第 3閾値 TH3よりも振幅が大きいスペクトルの平均振幅値 (以下、第 3平均値という）を求め、変形ベクトル算出部 1115に出力する。具体的には、平均スペクトル算出部 1114— 3は、残差スペクトル S2 (k)の高域部のスペクトルの値を、残差スペクトル S2 (k)の平均値 m3に第 3閾値 TH3を加えた値（ m3+TH3)と比較し、この値よりも大きな値を有するスペクトルを特定する (ステップ 1 ) o次に、平均スペクトル算出部 1114— 3は、残差スペクトル S2 (k)の高域部のスぺタトルの値を、残差スペクトル S2 (k)の平均値 m3から第 3閾値 TH3を減じた値 (m3 -TH3)と比較し、この値よりも小さな値を有するスペクトルを特定する (ステップ 2)。そして、平均スペクトル算出部 1114— 3は、ステップ 1およびステップ 2の双方で求まつたスペクトルの振幅の平均値を求め、変形ベクトル算出部 1115に出力する。

[0172] 平均スペクトル算出部 1114— 4は、第 4閾値 TH4よりも振幅力、さいスペクトルの平均振幅値 (以下、第 4平均値という）を求め、変形ベクトル算出部 1115に出力する。具体的には、平均スペクトル算出部 1114— 4は、残差スペクトル S2 (k)の高域部のスペクトルの値を、残差スペクトル S2 (k)の平均値 m3に第 4閾値 TH4を加えた値（ m3+TH4)と比較し、この値よりも小さな値を有するスペクトルを特定する (ステップ 1 ) o次に、平均スペクトル算出部 1114— 4は、残差スペクトル S2 (k)の高域部のスぺタトルの値を、残差スペクトル S2 (k)の平均値 m3から第 4閾値 TH4を減じた値 (m3 -TH4)と比較し、この値よりも大きな値を有するスペクトルを特定する (ステップ 2)。そして、平均スペクトル算出部 1114— 4は、ステップ 1およびステップ 2の双方で求まつたスペクトルの振幅の平均値を求め、変形ベクトル算出部 1115に出力する。

[0173] 変形ベクトル算出部 1115は、第 1平均値、第 2平均値、第 3平均値および第 4平均値を用いて、以下のようにして変形ベクトルを算出する。

[0174] すなわち、変形ベクトル算出部 1115は、第 3平均値と第 1平均値との比（以下、第 1 ゲインという）、および、第 4平均値と第 2平均値との比（以下、第 2ゲインという）を算出し、第 1ゲインおよび第 2ゲインを変形ベクトルとして減算部 1106に出力する。以下、変形ベクトルを g (i) (i= l,2)と表記する。つまり、 g (l)は第 1ゲインを表し、 g (2) は第 2ゲインを表す。

[0175] 減算部 1106は、変形ベクトル g (i)から、変形ベクトル符号帳 1116に属する符号ィ匕候補を減じ、この減算により得られる誤差信号を判定部 1107および重み付き誤差算出部 1108に出力する。以下、符号化候補を v(j,i)と表す。ここで、 jは変形ベクトル符号帳 1116の各符号化候補 (各変形情報)を識別するためのインデックスである。

[0176] 判定部 1107は、誤差信号の符号 (正または負）を判定し、判定結果に基づいて、重み付き誤差算出部 1108に与える重み (ウェイト）を第 1ゲイン g (l) ,第 2ゲイン g (2 )毎に決定する。判定部 1107は、第 1ゲイン g (l)に対しては、誤差信号の符号が正である場合には w を、負である場合には w を重みとして選択し、重み付き誤差

light heavy

算出部 1108に出力する。一方、第 2ゲイン g (2)に対しては、判定部 1107は、誤差信号の符号が正である場合には w を、負である場合には w を重みとして選択し

heavy light

、重み付き誤差算出部 1108に出力する。 w と w との間には式（18)に示す大小

light heavy

関係がある。

[数 18]

0 < flight < ^heayy … 8 )

[0177] 重み付き誤差算出部 1108は、まず、減算部 1106から入力される誤差信号の 2乗値を算出し、次に、誤差信号の 2乗値と、第 1ゲイン g (l) ,第 2ゲイン g (2)毎に判定部 1107から入力される重み w(w または w )との積和を求めて重み付き 2乗誤

light heavy

差 Eを算出し、探索部 1109に出力する。重み付き 2乗誤差 Eは式（19)のように表される。

[数 19]

(w(i) = w_light or w_hea … （1 9 )

[0178] 探索部 1109は、変形ベクトル符号帳 1116を制御して変形ベクトル符号帳 1116に格納されている符号ィ匕候補 (変形情報)を順次減算部 1106に出力させ、重み付き 2 乗誤差 Eが最小となる符号化候補 (変形情報)を探索する。そして、探索部 1109は、重み付き 2乗誤差 Eが最小となる符号ィヒ候補のインデックス j を最適変形情報として

opt

変形スペクトル生成部 1110および多重化部 1086に出力する。

[0179] 変形スペクトル生成部 1110は、第 1閾値 TH1、第 2閾値 TH2および最適変形情報 j を用いて復号スペクトル SI (k)を変形して最適変形情報 j に対応する変形復 opt opt

号スペクトル SI' (j ,k)を生成し、内部状態設定部 1081に出力する。

opt

[0180] 変形スペクトル生成部 1110は、まず、最適変形情報 j を用いて第 3平均値と第 1

opt

平均値との比の復号値 (以下、復号第 1ゲインという）、および、第 4平均値と第 2平均値との比の復号値 (以下、復号第 2ゲインと、う）を生成する。

[0181] 次に、変形スペクトル生成部 1110は、復号スペクトル SI (k)の振幅値と第 1閾値 T HIとを比較し、第 1閾値 TH1よりも振幅が大きいスペクトルを特定し、これらのスぺクトルに復号第 1ゲインを乗じて変形復号スペクトル Sl' (j ,k)を生成する。同様に、

opt

変形スペクトル生成部 1110は、復号スペクトル SI (k)の振幅値と第 2閾値 TH2とを比較し、第 2閾値 TH2よりも振幅が小さいスペクトルを特定し、これらのスペクトルに復号第 2ゲインを乗じて変形復号スペクトル S 1 ' (j ,k)を生成する。

opt

[0182] なお、復号スペクトル SI (k)のうち、第 1閾値 TH1と第 2閾値 TH2とに挟まれる領域に属するスペクトルに対しては、符号ィ匕情報が存在しない。そこで、変形スペクトル生成部 1110は、復号第 1ゲインと復号第 2ゲインの中間的な値を有するゲインを使用する。例えば、変形スペクトル生成部 1110は、復号第 1ゲインと、復号第 2ゲインと、第 1閾値 TH1と、第 2閾値 TH2とに基づく特性曲線から、ある振幅 Xに対応する復号ゲイン yを求め、このゲインを復号スペクトル Sl (k)の振幅に乗じる。すなわち、復号ゲイン yは、復号第 1ゲインおよび復号第 2ゲインの線形補間値となって、る。

[0183] このようにして本実施の形態によれば、実施の形態 6と同様の作用'効果を得ることができる。

[0184] (実施の形態 8)

図 26に、本発明の実施の形態 8に係るスペクトル変形部 1087の構成を示す。図 2 6において、実施の形態 6 (図 23)と同一の構成部分には同一符号を付し、説明を省略する。

[0185] 図 26に示すスペクトル変形部 1087において、修正部 1117には、分散算出部 110

5から分散 σ 2²が入力される。

[0186] 修正部 1117は、分散 σ 2²の値を小さくする修正処理を施して減算部 1106に出力する。具体的には、修正部 1117は、 0以上 1未満の値を分散 σ 2²に乗じる。

[0187] 減算部 1106は、修正処理後の分散から分散 σ 1 (j) ²を減じ、この減算により得られる誤差信号を誤差算出部 1118に出力する。

[0188] 誤差算出部 1118は、減算部 1106から入力される誤差信号の 2乗値 (2乗誤差)を算出して、探索部 1109に出力する。

[0189] 探索部 1109は、符号帳 1111を制御して符号帳 1111に格納されている符号ィ匕候補 (変形情報)を順次変形スペクトル生成部 1101に出力させ、 2乗誤差が最小となる符号ィ匕候補 (変形情報)を探索する。そして、探索部 1109は、 2乗誤差が最小となる符号化候補のインデックス j を最適変形情報として変形スペクトル生成部 1110およ

opt

び多重化部 1086に出力する。

[0190] このように、本実施の形態によれば、修正部 1117での修正処理により、探索部 11 09では、修正処理後の分散、すなわち、値が小さくなつた分散を目標値とした符号化候補の探索が行われるようになる。よって、音声復号化装置では、推定スペクトルのダイナミックレンジが抑えられるようになるため、上記のような過大なピークの発生頻度をさらに減少することができる。

[0191] なお、修正部 1117では、入力音声信号の特性に応じて分散 σ 2²に乗じる値を変ィ匕させてもよい。その特性としては、入力音声信号のピッチ周期性の強さを用いるのが適当である。つまり、修正部 1117は、入力音声信号のピッチ周期性が弱い場合（例えば、ピッチゲインが小さい場合）には分散 σ 2²に乗じる値を大きな値にし、入力音声信号のピッチ周期性が強い場合 (例えば、ピッチゲインが大きい場合)には分散 σ 2²に乗じる値を小さな値にしてもよい。このような適応化により、ピッチ周期性の強い信号 (例えば母音部）に対してのみ過大なスペクトルピークが生じにくくなり、その結果、聴感的な音質を改善することができる。

[0192] (実施の形態 9)

図 27に、本発明の実施の形態 9に係るスペクトル変形部 1087の構成を示す。図 2 7において、実施の形態 7 (図 25)と同一の構成部分には同一符号を付し、説明を省略する。

[0193] 図 27に示すスペクトル変形部 1087において、修正部 1117には、変形ベクトル算出部 1115から変形ベクトル g (i)が入力される。

[0194] 修正部 1117は、第 1ゲイン g (l)の値を小さくする修正処理および第 2ゲイン g (2) の値を大きくする修正処理の少なくとも一方を施して減算部 1106に出力する。具体的には、修正部 1117は、 0以上 1未満の値を第 1ゲイン g (l)に乗じ、 1より大きい値を第 2ゲイン g (2)に乗じる。

[0195] 減算部 1106は、修正処理後の変形ベクトルから、変形ベクトル符号帳 1116に属する符号化候補を減じ、この減算により得られる誤差信号を誤差算出部 1118に出力する。

[0196] 誤差算出部 1118は、減算部 1106から入力される誤差信号の 2乗値 (2乗誤差)を算出して、探索部 1109に出力する。

[0197] 探索部 1109は、変形ベクトル符号帳 1116を制御して変形ベクトル符号帳 1116に格納されている符号ィ匕候補 (変形情報)を順次減算部 1106に出力させ、 2乗誤差が最小となる符号ィ匕候補 (変形情報)を探索する。そして、探索部 1109は、 2乗誤差が最小となる符号化候補のインデックス j

optを最適変形情報として変形スペクトル生成部

1110および多重化部 1086に出力する。

[0198] このように、本実施の形態によれば、修正部 1117での修正処理により、探索部 11 09では、修正処理後の変形ベクトル、すなわち、ダイナミックレンジを小さくさせる変形ベクトルを目標値とした符号ィ匕候補の探索が行われるようになる。よって、音声復号化装置では、推定スペクトルのダイナミックレンジが抑えられるようになるため、上記のような過大なピークの発生頻度をさらに減少することができる。 [0199] なお、本実施の形態においても実施の形態 8同様、修正部 1117では、入力音声信号の特性に応じて変形ベクトル g (i)に乗じる値を変化させてもよい。このような適応化により、実施の形態 8同様、ピッチ周期性の強い信号 (例えば母音部）に対してのみ過大なスペクトルピークが生じにくくなり、その結果、聴感的な音質を改善することができる。

[0200] (実施の形態 10)

図 28に、本発明の実施の形態 10に係る第 2レイヤ符号化部 108の構成を示す。図 28において、実施の形態 6 (図 22)と同一の構成部分には同一符号を付し、説明を省略する。

[0201] 図 28に示す第 2レイヤ符号ィ匕部 108において、スペクトル変形部 1088には、周波数領域変換部 105から残差スペクトル S2 (k)が入力され、探索部 1083から残差スぺタトルの推定値 (推定残差スペクトル) S2' (k)が入力される。

[0202] スペクトル変形部 1088は、残差スペクトル S2 (k)の高域部のダイナミックレンジを参照して、推定残差スペクトル S2' (k)を変形させて推定残差スペクトル S2' (k)のダイナミックレンジを変化させる。そして、スペクトル変形部 1088は、推定残差スぺタトル S2' (k)をどのように変形したかを表す変形情報を符号ィ匕して多重化部 1086に出力する。また、スペクトル変形部 1088は、変形後の推定残差スペクトル (変形残差スベクトル)をゲイン符号ィ匕部 1085に出力する。なお、スペクトル変形部 1088の内部構成は、スペクトル変形部 1087と同一であるため、詳しい説明は省略する。

[0203] ゲイン符号ィ匕部 1085での処理は、実施の形態 1における「残差スペクトルの推定値 S2' (k)」を「変形残差スペクトル」と読み替えたものになるため、詳しい説明は省略する。

[0204] 次いで、本実施の形態に係る音声復号化装置の第 2レイヤ復号化部 203について説明する。図 29に、本発明の実施の形態 10に係る第 2レイヤ復号ィ匕部 203の構成を示す。図 29において、実施の形態 6 (図 24)と同一の構成部分には同一符号を付し、説明を省略する。

[0205] 第 2レイヤ復号ィ匕部 203において、変形スペクトル生成部 2037は、分離部 2032から入力される最適変形情報 j 、すなわち、変形残差スぺ外ルに関する最適変形情報 j に基づいて、フィルタリング部 2033から入力される復号スペクトル S' (k)を変形 opt

してスペクトル調整部 2035に出力する。つまり、変形スペクトル生成部 2037は、音声符号ィ匕装置側のスペクトル変形部 1088に対応して備えられ、スペクトル変形部 10

88と同様の処理を行う。

[0206] このように、本実施の形態によれば、復号スペクトル SI (k)のみならず推定残差スベクトル S2' (k)も変形させるため、より適切なダイナミックレンジを有する推定残差スベクトルを生成することができる。

[0207] (実施の形態 11)

図 30に、本発明の実施の形態 11に係る第 2レイヤ符号化部 108の構成を示す。図

30において、実施の形態 6 (図 22)と同一の構成部分には同一符号を付し、説明を省略する。

[0208] 図 30に示す第 2レイヤ符号ィ匕部 108において、スペクトル変形部 1087は、音声復号ィ匕装置と共有の所定の変形情報に従って復号スペクトル SI (k)を変形させて復号スペクトル Sl (k)のダイナミックレンジを変化させる。そして、スペクトル変形部 1087 は、変形復号スペクトル SI' (j,k)を内部状態設定部 1081に出力する。

[0209] 次いで、本実施の形態に係る音声復号化装置の第 2レイヤ復号化部 203について説明する。図 31に、本発明の実施の形態 11に係る第 2レイヤ復号化部 203の構成を示す。図 31において、実施の形態 6 (図 24)と同一の構成部分には同一符号を付し、説明を省略する。

[0210] 第 2レイヤ復号ィ匕部 203において、変形スペクトル生成部 2036は、音声符号化装置と共有の所定の変形情報、すなわち、図 30のスペクトル変形部 1087が使用した所定の変形情報と同一の変形情報に従って、第 1レイヤ復号化部 202から入力される第 1レイヤ復号スペクトル S 1 (k)を変形して内部状態設定部 2031に出力する。

[0211] このように、本実施の形態によれば、音声符号化装置のスペクトル変形部 1087と音声復号ィ匕装置の変形スペクトル生成部 2036とが予め定められた同一の変形情報に従って変形処理を行うため、音声符号化装置から音声復号化装置への変形情報の送信が不要となる。よって、本実施の形態によれば、実施の形態 6に比べ、ビットレートを低減させることができる。 [0212] なお、図 28に示すスペクトル変形部 1088と図 29に示す変形スペクトル生成部 203

7とが予め定められた同一の変形情報に従って変形処理を行ってもよい。これにより

、ビットレートをさらに低減させることができる。

[0213] (実施の形態 12)

実施の形態 10における第 2レイヤ符号ィ匕部 108が、スペクトル変形部 1087を有しない構成を採ることも可能である。そこで、実施の形態 12として、この場合の第 2レイャ符号化部 108の構成を図 32に示す。

[0214] また、第 2レイヤ符号ィ匕部 108がスペクトル変形部 1087を有しない場合、音声復号化装置においても、スペクトル変形部 1087に対応する変形スペクトル生成部 2036 が不要となる。そこで、実施の形態 12として、この場合の第 2レイヤ復号ィ匕部 203の構成を図 33に示す。

[0215] 以上、本発明の実施の形態について説明した。

[0216] なお、実施の形態 6〜12に係る第 2レイヤ符号ィ匕部 108は、実施の形態 2 (図 11)、実施の形態 3 (図 13)、実施の形態 4 (図 15)、実施の形態 5 (図 17,15,16)においても用いることができる。ただし、実施の形態 4、 5 (図 15,13,15,16)では、第 1レイヤ復号信号をアップサンプリングした後に周波数領域変換を施しているため、第 1レイヤ復号スペクトル Sl (k)の周波数帯域は 0≤k<FHとなる。し力し、単にアップサンプリングした後に周波数領域への変換を行って、るため、帯域 FL≤ k< FHには有効な信号成分が含まれていない。よって、これらの実施形態においても、第 1レイヤ復号スペクトル S 1 (k)の帯域を 0≤k< FLとして扱うことができる。

[0217] また、実施の形態 6〜12に係る第 2レイヤ符号ィ匕部 108は、実施の形態 2〜5に記載した音声符号化装置以外の音声符号化装置の第 2レイヤにおける符号化にも用いることがでさる。

[0218] また、上記実施の形態においては、第 2レイヤ符号ィ匕部 108内において多重化部 1 086でピッチ係数やインデックス等を多重化して第 2レイヤ符号ィ匕データとして出力した後、多重化部 109で第 1レイヤ符号ィ匕データ、第 2レイヤ符号ィ匕データおよび LPC 係数符号ィ匕データを多重化してビットストリームを生成しているが、これに限定されず、第 2レイヤ符号ィ匕部 108内に多重化部 1086を設けずに、ピッチ係数やインデックス等を多重化部 109へ直接入力して第 1レイヤ符号ィ匕データ等との多重化を行なつてもよい。また、第 2レイヤ復号ィ匕部 203に関しても、分離部 201でビットストリームからー且分離されて生成された第 2レイヤ符号ィ匕データを第 2レイヤ復号ィ匕部 203内の分離部 2032へ入力し、分離部 2032でさらにピッチ係数やインデックス等に分離しているが、これに限定されず、第 2レイヤ復号化部 203内に分離部 2032を設けずに、分離部 201で直接ビットストリームをピッチ係数やインデックス等に分離して第 2レイャ復号ィ匕部 203へ入力してもよ、。

[0219] また、上記実施の形態においてはスケーラブル符号ィ匕の階層数が 2である場合を例に挙げて説明した力これに限定されず、本発明は 3以上の階層を持つスケーラブル符号化にも適用することができる。

[0220] また、上記実施の形態においては第 2レイヤにおける変換符号化の方式として MD CTを用いる場合を例に挙げて説明したが、これに限定されず、本発明では、 FFT、 DFT、 DCT、フィルタバンク、 Wavelet変換等、他の変換符号化方式を用いることもできる。

[0221] また、上記実施の形態においては入力信号が音声信号である場合を例に挙げて説明したが、これに限定されず、本発明はオーディオ信号にも適用することができる

[0222] また、上記実施の形態に係る音声符号化装置や音声復号化装置を移動体通信システムにおいて使用される無線通信移動局装置や無線通信基地局装置に備えて、移動体通信における音声品質の劣化を防ぐことができる。また、無線通信移動局装置は UE、無線通信基地局装置は Node Bと表されることがある。

[0223] また、上記実施の形態では、本発明をノヽードウエアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。

[0224] また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路である LSIとして実現される。これらは個別に 1チップ化されてもよいし、一部または全てを含むように 1チップィ匕されてもよい。ここでは、 LSIとした力集積度の違いにより、 I C、システム LSI、スーパー LSI、ゥノレトラ LSIと呼称されることもある。

[0225] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッサで実現してもよい。 LSI製造後に、プログラムすることが可能な FPGA (Field Progra mmable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィギユラブル'プロセッサーを利用してもよい。

[0226] さらには、半導体技術の進歩または派生する別技術により LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行ってもよい。バイオ技術の適応等が可能性としてありえる。

[0227] 本明細書は、 2005年 9月 30日出願の特願 2005— 286533及び 2006年 7月 21 日出願の特願 2006— 199616に基づく。この内容はすべてここに含めておく。

産業上の利用可能性

[0228] 本発明は、移動体通信システムにおいて使用される無線通信移動局装置や無線通信基地局装置等の用途に適用することができる。

Claims

請求の範囲

[1] 音声信号の閾値周波数より低い帯域である低域部のスペクトルを符号ィ匕する第 1符号化手段と、

前記音声信号のスペクトル包絡と逆の特性を持つ逆フィルタを用いて前記低域部のスペクトルを平坦化する平坦化手段と、

平坦化された低域部のスペクトルを用いて前記音声信号の前記閾値周波数より高い帯域である高域部のスペクトルを符号ィ匕する第 2符号ィ匕手段と、

を具備する音声符号化装置。

[2] 前記平坦化手段は、前記音声信号の LPC係数を用いて前記逆フィルタを構成する、

請求項 1記載の音声符号化装置。

[3] 前記平坦化手段は、前記音声信号の共振の程度に応じて平坦化の程度を変化させる、

請求項 1記載の音声符号化装置。

[4] 前記平坦化手段は、前記共振が強いほど前記平坦化の程度を弱める、

請求項 3記載の音声符号化装置。

[5] 前記第 2符号化手段は、前記平坦化された低域部のスペクトルを変形させ、変形後の低域部のスペクトルを用いて前記高域部のスペクトルを符号ィ匕する、

請求項 1記載の音声符号化装置。

[6] 前記第 2符号化手段は、前記平坦ィ匕された低域部のスペクトルのダイナミックレンジを前記高域部のスペクトルのダイナミックレンジに近づける変形を前記平坦ィ匕された低域部のスペクトルに施す、

請求項 5記載の音声符号化装置。

[7] 前記第 2符号化手段は、複数の符号化候補にお!、てダイナミックレンジを大きくする符号ィ匕候補よりダイナミックレンジを小さくする符号ィ匕候補を優先して用いて、前記平坦ィ匕された低域部のスペクトルを変形させる、

請求項 6記載の音声符号化装置。

[8] 前記第 2符号化手段は、符号化候補探索用の目標値を小さくする修正を行い、その修正後の目標値に基づいて、前記平坦ィ匕された低域部のスペクトルの変形に用いる符号化候補を前記複数の符号化候補に対して探索する、

請求項 7記載の音声符号化装置。

[9] 前記第 2符号化手段は、前記変形後の低域部のスペクトルから前記高域部のスぺタトルを推定し、推定した高域部のスペクトルを変形させ、変形後の高域部のスぺタトルを用いて前記音声信号の高域部のスペクトルを符号化する、

請求項 5記載の音声符号化装置。

[10] 前記第 2符号化手段は、前記平坦化された低域部のスペクトルから前記高域部のスペクトルを推定し、推定した高域部のスペクトルを変形させ、変形後の高域部のスベクトルを用いて前記音声信号の高域部のスペクトルを符号化する、

請求項 1記載の音声符号化装置。

[11] 請求項 1記載の音声符号化装置を備える無線通信移動局装置。

[12] 請求項 1記載の音声符号化装置を備える無線通信基地局装置。

[13] 音声信号の閾値周波数より低い帯域である低域部のスペクトルを符号ィ匕する第 1符号化工程と、

前記音声信号のスペクトル包絡と逆の特性を持つ逆フィルタを用いて前記低域部のスペクトルを平坦化する平坦化工程と、

平坦化された低域部のスペクトルを用いて前記音声信号の前記閾値周波数より高い帯域である高域部のスペクトルを符号ィ匕する第 2符号ィ匕工程と、

を具備する音声符号化方法。