JPWO2008053970A1

JPWO2008053970A1 - 音声符号化装置、音声復号化装置、およびこれらの方法

Info

Publication number: JPWO2008053970A1
Application number: JP2008542181A
Authority: JP
Inventors: 押切　正浩; 正浩押切
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2006-11-02
Filing date: 2007-11-01
Publication date: 2010-02-25
Also published as: US20100017197A1; WO2008053970A1

Abstract

スペクトルの低域成分を用いて高域成分を符号化する際に、低域部に成分が存在しない場合に復号信号の音質劣化を低減することができる音声符号化装置等を開示する。この装置において、周波数領域変換部１０１は、入力される音声信号から入力スペクトルを生成し、第１レイヤ符号化部１０２は、入力スペクトルの低域部を符号化して第１レイヤ符号化データを生成し、第１レイヤ復号化部１０３は、第１レイヤ符号化データを復号して第１レイヤ復号スペクトルを生成し、低域成分判定部１０４は、第１レイヤ復号化スペクトルの低域成分の有無を判定し、第２レイヤ符号化部１０５は、低域成分が存在する場合には入力スペクトルの高域成分を符号化して第２レイヤ符号化データを生成し、低域成分が存在しない場合には低域部に配置された所定の信号を用いて高域成分を符号化して第２レイヤ符号化データを生成する。

Description

本発明は、音声符号化装置、音声復号化装置、およびこれらの方法に関する。

移動体通信システムにおける電波資源等の有効利用のために、音声信号を低ビットレートで圧縮することが要求されている。その一方で、ユーザからは通話音声の品質向上や臨場感の高い通話サービスの実現が望まれている。この実現には、音声信号の高品質化のみならず、音声信号以外のより帯域が広いオーディオ信号等も高品質に符号化できることが望ましい。

このように相反する要求に対し、複数の符号化技術を階層的に統合するアプローチが有望視されている。具体的には、音声信号に適したモデルで入力信号を低ビットレートで符号化する第１レイヤと、入力信号と第１レイヤ復号信号との差分信号を音声以外の信号にも適したモデルで符号化する第２レイヤとを階層的に組み合わせる構成が検討されている。このような階層構造を持つ符号化方式は、符号化部から得られるビットストリームにスケーラビリティ性、すなわち、ビットストリームの一部を廃棄しても残りの情報から所定品質の復号信号が得られる性質を有するため、スケーラブル符号化と呼ばれる。スケーラブル符号化は、その特徴から、ビットレートの異なるネットワーク間の通信にも柔軟に対応できるため、ＩＰ（インターネットプロトコル）で多様なネットワークが統合されていく今後のネットワーク環境に適している。

従来のスケーラブル符号化技術として非特許文献１記載のものがある。非特許文献１では、ＭＰＥＧ−４（Moving Picture Experts Group phase-4）で規格化された技術を用いてスケーラブル符号化を構成している。具体的には、第１レイヤでは、音声信号に適したＣＥＬＰ（Code Excited Linear Prediction；符号励振線形予測）符号化を用い、第２レイヤにおいて、原信号から第１レイヤ復号信号を減じた残差信号に対し、ＡＡＣ（Advanced Audio Coder）やＴｗｉｎＶＱ（Transform Domain Weighted Interleave Vector Quantization；周波数領域重み付きインターリーブベクトル量子化）のような変換符号化を用いる。

また、変換符号化において、高能率にスペクトルの高域部を符号化する技術が非特許文献２に開示されている。非特許文献２では、スペクトルの低域部をピッチフィルタのフィルタ状態として利用し、スペクトルの高域部をピッチフィルタの出力信号を用いて表している。このように、ピッチフィルタのフィルタ情報を少ないビット数で符号化することにより低ビットレート化を図ることができる。
三木弼一編著、「ＭＰＥＧ−４の全て（初版）」（株）工業調査会、１９９８年９月３０日、ｐ．１２６−１２７押切他、「ピッチフィルタリングによる帯域拡張技術を用いた７／１０／１５ｋＨｚ帯域スケーラブル音声符号化方式」音講論集３−１１−４、２００４年３月、ｐｐ．３２７−３２８

しかしながら、スペクトルの低域部を利用して高域部を高能率に符号化する方法では、高域部にのみ成分がある(低域部に成分が無い)信号が入力された場合、高域部の符号化に必要な低域部の成分が存在しないため、スペクトルの高域部を符号化することができないという問題がある。

図１は、スペクトルの低域部を利用して高域部を高能率に符号化する手法およびその問題点を説明するための図である。この図においては、横軸で周波数を表し、縦軸でエネルギーを表す。また、０≦ｋ＜ＦＬの周波数帯域を低域、ＦＬ≦ｋ＜ＦＨの周波数帯域を高域、０≦ｋ＜ＦＨの周波数帯域を全帯域と呼ぶ（以下同様）。また、低域部の符号化を行う処理を第１符号化処理と呼び、スペクトルの低域部を利用して高域部を高能率に符号化する処理を第２符号化処理と呼ぶ（以下同様）。図１Ａ〜図１Ｃは全帯域成分を含む音声信号が入力される場合、スペクトルの低域部を利用して高域部を高能率に符号化する手法を説明するための図である。図１Ｄ〜図１Ｆは、低域成分を含まず高域成分のみを含む音声信号が入力される場合、スペクトルの低域部を利用して高域部を高能率に符号化する手法の問題点を説明するための図である。

図１Ａは、全帯域成分を含む音声信号のスペクトルを示す。この信号の低域成分を用いて第１符号化処理を行い得られる低域の復号信号のスペクトルは、図１Ｂに示すように０≦ｋ＜ＦＬの周波数帯域に制限される。さらに、図１Ｂに示す復号信号を用いて第２符号化処理を行う場合、得られる全帯域の復号信号のスペクトルは図１Ｃに示すようになり、図１Ａに示す元の音声信号のスペクトルに類似している。

一方、図１Ｄは、低域成分を含まず高域成分のみを含む音声信号のスペクトルを示す。ここでは、周波数Ｘ０（ＦＬ＜Ｘ０＜ＦＨ）の正弦波の場合を例にとって説明する。第１符号化処理として低域部の符号化が行われる場合、入力された音声信号の低域成分が存在せず、かつ低域の復号信号のスペクトルは０≦ｋ＜ＦＬの周波数帯域に制限される。このため、低域の復号信号は図１Ｅのように何も含まず、全帯域においてスペクトルが失われることになる。次いで低域の復号信号を用いた第２符号化処理が行われる場合、得られる全帯域の復号信号のスペクトルは図１Ｆに示すようになり、低域部に成分が存在しないため高域成分を正しく符号化することはできない。

本発明の目的は、スペクトルの低域部を利用して高域部を高能率に符号化する場合において、音声信号の一部の区間において低域成分が存在しない場合でも、復号信号の音質劣化を低減することができる音声符号化装置等を提供することである。

本発明の音声符号化装置は、入力した音声信号の基準周波数より低い帯域である低域部の成分を符号化して第１レイヤ符号化データを得る第１レイヤ符号化手段と、前記音声信号の低域部の成分の有無を判定する判定手段と、前記音声信号に低域部の成分が存在する場合には、前記音声信号の低域部の成分を用い前記音声信号の基準周波数以上の帯域である高域部の成分を符号化して第２レイヤ符号化データを得、前記音声信号に低域部の成分が存在しない場合には、前記音声信号の低域部に配置された所定の信号を用いて前記音声信号の高域部の成分を符号化して第２レイヤ符号化データを得る第２レイヤ符号化手段と、を具備する構成を採る。

本発明によれば、スペクトルの低域部を利用して高域部を高能率に符号化する場合において、音声信号に低域部の成分が存在しない場合には音声信号の低域部に配置された所定の信号を用いて音声信号の高域部の成分を符号化することにより、音声信号の一部の区間において低域成分が存在しない場合でも復号信号の音質劣化を低減することができる。

従来技術に係るスペクトルの低域部を利用して高域部を高能率に符号化する手法およびその問題点を説明するための図スペクトルを用いて本発明に係る処理を説明するための図実施の形態１に係る音声符号化装置の主要な構成を示すブロック図実施の形態１に係る第２レイヤ符号化部の内部の主要な構成を示すブロック図実施の形態１に係る音声復号化装置の主要な構成を示すブロック図実施の形態１に係る第２レイヤ復号化部の内部の主要な構成を示すブロック図実施の形態１に係る音声符号化装置の別の構成を示すブロック図実施の形態１に係る音声復号化装置の別の構成を示すブロック図実施の形態２に係る第２レイヤ符号化部の主要な構成を示すブロック図実施の形態２に係るゲイン符号化部の内部の主要な構成を示すブロック図実施の形態２に係る第２ゲイン符号帳に含まれるゲインベクトルを例示する図実施の形態２に係る第２レイヤ復号化部の内部の主要な構成を示すブロック図実施の形態２に係るゲイン復号化部の内部の主要な構成を示すブロック図実施の形態３に係る音声符号化装置の主要な構成を示すブロック図実施の形態３に係る音声復号化装置の主要な構成を示すブロック図実施の形態４に係る音声符号化装置の主要な構成を示すブロック図実施の形態４に係るダウンサンプリング部の内部の主要な構成を示すブロック図実施の形態４に係るダウンサンプリング部において、低域通過フィルタリング処理が行われず、直接間引き処理が行われる場合、スペクトルの変化の様子を示す図実施の形態４に係る第２レイヤ符号化部の主要な構成を示すブロック図実施の形態４に係る音声復号化装置の主要な構成を示すブロック図実施の形態４に係る第２レイヤ復号化部の主要な構成を示すブロック図実施の形態４に係るダウンサンプリング部の別の構成を示すブロック図実施の形態４に係るダウンサンプリング部の別の構成において直接間引き処理が行われる場合のスペクトルの変化の様子を示す図

まず、図２を用いて本発明の原理について説明する。ここでは、図１Ｄの場合と同様に、周波数Ｘ０（ＦＬ＜Ｘ０＜ＦＨ）の正弦波が入力される場合を例にとって説明する。

まず、符号化側において第１符号化処理として、図２Ａに示すような周波数Ｘ０（ＦＬ＜Ｘ０＜ＦＨ）の正弦波のみを含む入力信号の低域部を符号化する。第１符号化処理により得られる復号信号は図２Ｂに示すようになる。本発明においては、図２Ｂに示す復号信号の低域成分の有無を判定し、低域成分が存在しない（または非常に小さい）と判定された場合には、図２Ｃに示すように復号信号の低域部に所定の信号を配置する。所定の信号としては、乱数信号を用いても良く、ピーク性の強い成分を用いることにより正弦波をより正確に符号化することも可能である。次いで、図２Ｄに示すように第２符号化処理として、復号信号の低域部を利用して高域部のスペクトルを推定し、入力信号の高域部のゲイン符号化を行う。次いで復号化側は、符号化側から伝送された推定情報を用いて高域部を復号し、さらにゲイン符号化情報を用いて復号された高域部のゲイン調整を行い、図２Ｅに示すような復号スペクトルを得る。次いで、低域成分の有無判定に関する符号化情報に基づき、ゼロ値を入力信号の低域部に代入し、図２Ｆに示すような復号スペクトルを得る。

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。

（実施の形態１）
図３は、本発明の実施の形態１に係る音声符号化装置１００の主要な構成を示すブロック図である。なお、ここでは、第１レイヤおよび第２レイヤ共に、周波数領域で符号化を行う構成を例にとって説明する。

音声符号化装置１００は、周波数領域変換部１０１、第１レイヤ符号化部１０２、第１レイヤ復号化部１０３、低域成分判定部１０４、第２レイヤ符号化部１０５、および多重化部１０６を備える。なお、第１レイヤおよび第２レイヤ共に、周波数領域における符号化を行う。

周波数領域変換部１０１は、入力信号の周波数分析を行い、変換係数の形式で入力信号のスペクトル（入力スペクトル）Ｓ１（ｋ）（０≦ｋ＜ＦＨ）を求める。ここで、ＦＨは入力スペクトルの最大周波数を示す。具体的には、周波数領域変換部１０１は、例えば、ＭＤＣＴ（Modified Discrete Cosine Transform；変形離散コサイン変換）を用いて時間領域信号を周波数領域信号へ変換する。入力スペクトルは第１レイヤ符号化部１０２および第２レイヤ符号化部１０５に出力される。

第１レイヤ符号化部１０２は、ＴｗｉｎＶＱやＡＡＣ等を用いて入力スペクトルの低域部０≦ｋ＜ＦＬ（ただ、ＦＬ＜ＦＨ）の符号化を行い、得られる第１レイヤ符号化データを、第１レイヤ復号化部１０３および多重化部１０６に出力する。

第１レイヤ復号化部１０３は、第１レイヤ符号化データを用いて第１レイヤ復号を行って第１レイヤ復号スペクトルＳ２(ｋ)（０≦ｋ＜ＦＬ）を生成し、第２レイヤ符号化部１０５及び低域成分判定部１０４に出力する。なお、第１レイヤ復号化部１０３は、時間領域に変換される前の第１レイヤ復号スペクトルを出力する。

低域成分判定部１０４は、第１レイヤ復号スペクトルＳ２(ｋ)（０≦ｋ＜ＦＬ）に低域（０≦ｋ＜ＦＬ）成分が存在するか否かを判定し、判定結果を第２レイヤ符号化部１０５に出力する。ここで、低域成分が存在すると判定される場合、判定結果は「１」となり、低域成分が存在しないと判定される場合、判定結果は「０」となる。判定の方法としては、低域成分のエネルギーと所定の閾値とを比較し、低域成分エネルギーが閾値以上である場合に低域成分が存在すると判定し、閾値より低い場合には低域成分が存在しないと判定する。

第２レイヤ符号化部１０５は、第１レイヤ復号化部１０３から入力される第１レイヤ復号スペクトルを用いて、周波数領域変換部１０１から出力される入力スペクトルＳ１（ｋ）（０≦ｋ＜ＦＨ）の高域部ＦＬ≦ｋ＜ＦＨの符号化を行い、この符号化にて得られる第２レイヤ符号化データを多重化部１０６に出力する。具体的には、第２レイヤ符号化部１０５は、第１レイヤ復号スペクトルをピッチフィルタのフィルタ状態として用い、ピッチフィルタリング処理により入力スペクトルの高域部を推定する。また、第２レイヤ符号化部１０５は、ピッチフィルタのフィルタ情報を符号化する。第２レイヤ符号化部１０５の詳細については後述する。

多重化部１０６は、第１レイヤ符号化データおよび第２レイヤ符号化データを多重化し、符号化データとして出力する。この符号化データは、音声符号化装置１００を搭載する無線送信装置の送信処理部など（図示せず）を介してビットストリームに重畳され、無線受信装置に伝送される。

図４は、上記の第２レイヤ符号化部１０５の内部の主要な構成を示すブロック図である。第２レイヤ符号化部１０５は、信号生成部１１１、スイッチ１１２、フィルタ状態設定部１１３、ピッチ係数設定部１１４、ピッチフィルタリング部１１５、探索部１１６、ゲイン符号化部１１７、および多重化部１１８を備え、各部は以下の動作を行う。

信号生成部１１１は、低域成分判定部１０４から入力される判定結果が「０」である場合に、乱数信号、または乱数をクリッピングした信号、または予め学習により設計された所定の信号を生成し、スイッチ１１２に出力する。

スイッチ１１２は、低域成分判定部１０４から入力される判定結果が「０」である場合は信号生成部１１１から入力される所定の信号をフィルタ状態設定部１１３に出力し、判定結果が「１」である場合は第１レイヤ復号スペクトルＳ２(ｋ)（０≦ｋ＜ＦＬ）をフィルタ状態設定部１１３に出力する。

フィルタ状態設定部１１３は、スイッチ１１２から入力される所定の信号、または第１レイヤ復号スペクトルＳ２(ｋ)（０≦ｋ＜ＦＬ）をピッチフィルタリング部１１５で用いられるフィルタ状態として設定する。

ピッチ係数設定部１１４は、探索部１１６の制御の下、ピッチ係数Ｔを予め定められた探索範囲Ｔ_ｍｉｎ〜Ｔ_ｍａｘの中で少しずつ変化させながら、ピッチフィルタリング部１１５に順次出力する。

ピッチフィルタリング部１１５は、ピッチフィルタを備え、フィルタ状態設定部１１３により設定されたフィルタ状態と、ピッチ係数設定部１１４から入力されるピッチ係数Ｔとに基づいて、第１レイヤ復号スペクトルＳ２(ｋ)（０≦ｋ＜ＦＬ）に対しフィルタリングを行う。ピッチフィルタリング部１１５は、これにより入力スペクトルの高域部に対する推定スペクトルＳ１’(ｋ)（ＦＬ≦ｋ＜ＦＨ）を算出する。

具体的には、ピッチフィルタリング部１１５は以下のフィルタリング処理を行う。

ピッチフィルタリング部１１５は、ピッチ係数設定部１１４から入力されるピッチ係数Ｔを用いて、帯域ＦＬ≦ｋ＜ＦＨのスペクトルを生成する。ここで、全周波数帯域０≦ｋ＜ＦＨのスペクトルを便宜的にＳ(ｋ)と呼び、フィルタ関数は下記の式（１）で表されるものを使用する。

この式において、Ｔはピッチ係数設定部１１４から与えられるピッチ係数、β_ｉはフィルタ係数を表している。またＭ＝１とする。

Ｓ(ｋ)（０≦ｋ＜ＦＨ）の低域部０≦ｋ＜ＦＬには、第１レイヤ復号スペクトルＳ２(ｋ)（０≦ｋ＜ＦＬ）がフィルタの内部状態（フィルタ状態）として格納される。

Ｓ(ｋ)（０≦ｋ＜ＦＨ）の高域部ＦＬ≦ｋ＜ＦＨには、下記の式（２）に示すフィルタリング処理により、入力スペクトルＳ１(ｋ)（０≦ｋ＜ＦＨ）の高域部に対する推定スペクトルＳ１'(ｋ)（ＦＬ≦ｋ＜ＦＨ）が格納される。

すなわち、Ｓ１'(ｋ)には、基本的に、このｋよりＴだけ低い周波数のスペクトルＳ(ｋ−Ｔ)が代入される。但し、スペクトルの円滑性を増すために、実際には、スペクトルＳ(ｋ−Ｔ)からｉだけ離れた近傍のスペクトルＳ(ｋ−Ｔ＋ｉ)に所定のフィルタ係数β_ｉを乗じて得られるスペクトルβ_ｉ・Ｓ(ｋ−Ｔ＋ｉ)を、全てのｉについて加算し、加算結果となるスペクトルをＳ１'(ｋ)に代入する。

上記演算を、周波数の低いｋ＝ＦＬから順に、ｋをＦＬ≦ｋ＜ＦＨの範囲で変化させて行うことにより、ＦＬ≦ｋ＜ＦＨにおける入力スペクトルの高域部に対する推定スペクトルＳ１'(ｋ)（ＦＬ≦ｋ＜ＦＨ）を算出する。

以上のフィルタリング処理は、ピッチ係数設定部１１４からピッチ係数Ｔが与えられる度に、ＦＬ≦ｋ＜ＦＨの範囲において、その都度Ｓ(ｋ)をゼロクリアして行われる。すなわち、ピッチ係数Ｔが変化するたびにＳ(ｋ)（ＦＬ≦ｋ＜ＦＨ）が算出され、探索部１１６に出力される。

探索部１１６は、周波数領域変換部１０１から入力される入力スペクトルＳ１(ｋ)（０≦ｋ＜ＦＨ）の高域部ＦＬ≦ｋ＜ＦＨと、ピッチフィルタリング部１１５から入力される推定スペクトルＳ１'(ｋ)（ＦＬ≦ｋ＜ＦＨ）との類似度を算出する。この類似度の算出は、例えば、相関演算などにより行われる。ピッチ係数設定部１１４−ピッチフィルタリング部１１５−探索部１１６の処理は閉ループとなっており、探索部１１６は、ピッチ係数設定部１１４が出力するピッチ係数Ｔを種々に変化させることにより、各ピッチ係数に対応する類似度を算出する。そして、算出される類似度が最大となるピッチ係数、すなわち最適なピッチ係数Ｔ’（但しＴ_ｍｉｎ〜Ｔ_ｍａｘの範囲）を多重化部１１８に出力する。また、探索部１１６は、このピッチ係数Ｔ’に対応する推定スペクトルＳ１'(ｋ)（ＦＬ≦ｋ＜ＦＨ）をゲイン符号化部１１７に出力する。

ゲイン符号化部１１７は、周波数領域変換部１０１から入力される入力スペクトルＳ１(ｋ)（０≦ｋ＜ＦＨ）の高域部ＦＬ≦ｋ＜ＦＨに基づいて、入力スペクトルＳ１(ｋ)のゲイン情報を算出する。具体的には、周波数帯域ＦＬ≦ｋ＜ＦＨをＪ個のサブバンドに分割し、サブバンド毎のスペクトル振幅情報を用いてゲイン情報を表す。このとき、第ｊサブバンドのゲイン情報Ｂ(ｊ)は下記の式（３）で表される。

この式において、ＢＬ(ｊ)は第ｊサブバンドの最小周波数、ＢＨ(ｊ)は第ｊサブバンドの最大周波数を表す。このようにして求めた入力スペクトルの高域部のサブバンド毎のスペクトル振幅情報を入力スペクトルの高域部のゲイン情報とみなす。

ゲイン符号化部１１７は、入力スペクトルＳ１（ｋ）（０≦ｋ＜ＦＨ）の高域部ＦＬ≦ｋ＜ＦＨのゲイン情報を符号化するためのゲイン符号帳を有する。ゲイン符号帳には要素数がＪの複数のゲインベクトルが記録されており、ゲイン符号化部１１７は、式（３）を用いて求めたゲイン情報に最も類似するゲインベクトルを探索し、このゲインベクトルに対応するインデックスを多重化部１１８に出力する。

多重化部１１８は、探索部１１６から入力される最適なピッチ係数Ｔ’と、ゲイン符号化部１１７から入力されるゲインベクトルのインデックスとを多重化し、第２レイヤ符号化データとして多重化部１０６に出力する。

図５は、本実施の形態に係る音声復号化装置１５０の主要な構成を示すブロック図である。この音声復号化装置１５０は、図３に示した音声符号化装置１００で生成された符号化データを復号するものである。各部は以下の動作を行う。

分離部１５１は、無線送信装置から伝送されるビットストリームに重畳された符号化データを、第１レイヤ符号化データおよび第２レイヤ符号化データに分離する。そして、分離部１５１は、第１レイヤ符号化データを第１レイヤ復号化部１５２に、第２レイヤ符号化データを第２レイヤ復号化部１５４に出力する。また、分離部１５１は、上記ビットストリームから、どのレイヤの符号化データが含まれているかを表すレイヤ情報を分離し、判定部１５５に出力する。

第１レイヤ復号化部１５２は、分離部１５１から入力される第１レイヤ符号化データに対して復号処理を行って第１レイヤ復号スペクトルＳ２(ｋ)（０≦ｋ＜ＦＬ）を生成し、低域成分判定部１５３、第２レイヤ復号化部１５４、および判定部１５５に出力する。

低域成分判定部１５３は、第１レイヤ復号化部１５２から入力される第１レイヤ復号スペクトルＳ２(ｋ)（０≦ｋ＜ＦＬ）に低域（０≦ｋ＜ＦＬ）成分が存在するか否かを判定し、判定結果を第２レイヤ復号化部１５４に出力する。ここで、低域成分が存在すると判定される場合、判定結果は「１」となり、低域成分が存在しないと判定される場合、判定結果は「０」となる。判定の方法としては、低域成分のエネルギーと所定の閾値とを比較し、低域成分エネルギーが閾値以上である場合に低域成分が存在すると判定し、閾値より低い場合には低域成分が存在しないと判定する。

第２レイヤ復号化部１５４は、分離部１５１から入力される第２レイヤ符号化データ、低域成分判定部１５３から入力される判定結果、および第１レイヤ復号化部１５２から入力される第１レイヤ復号スペクトルＳ２(ｋ)を用いて、第２レイヤ復号スペクトルを生成し、判定部１５５に出力する。なお、第２レイヤ復号化部１５４の詳細については後述する。

判定部１５５は、分離部１５１から出力されるレイヤ情報に基づき、ビットストリームに重畳された符号化データに第２レイヤ符号化データが含まれているか否か判定する。ここで、音声符号化装置１００を搭載する無線送信装置は、ビットストリームに第１レイヤ符号化データおよび第２レイヤ符号化データの双方を含めて送信するが、通信経路の途中において第２レイヤ符号化データが廃棄される場合がある。そこで、判定部１５５は、レイヤ情報に基づき、ビットストリームに第２レイヤ符号化データが含まれているか否かを判定する。そして、判定部１５５は、ビットストリームに第２レイヤ符号化データが含まれていない場合には、第２レイヤ復号化部１５４によって第２レイヤ復号スペクトルが生成されないため、第１レイヤ復号スペクトルを時間領域変換部１５６に出力する。但し、かかる場合には、第２レイヤ符号化データが含まれている場合の復号スペクトルと次数を一致させるために、判定部１５５は、第１レイヤ復号スペクトルの次数をＦＨまで拡張し、ＦＬ〜ＦＨの帯域のスペクトルを０として出力する。一方、ビットストリームに第１レイヤ符号化データおよび第２レイヤ符号化データの双方が含まれている場合には、判定部１５５は、第２レイヤ復号スペクトルを時間領域変換部１５６に出力する。

時間領域変換部１５６は、判定部１５５から出力される第１レイヤ復号スペクトルおよび第２レイヤ復号スペクトルを時間領域信号に変換して復号信号を生成し、出力する。

図６は、上記の第２レイヤ復号化部１５４の内部の主要な構成を示すブロック図である。

分離部１６１は、分離部１５１から出力される第２レイヤ符号化データを、フィルタリングに関する情報である最適なピッチ係数Ｔ’と、ゲインに関する情報であるゲインベクトルのインデックスとに分離する。そして、分離部１６１は、フィルタリングに関する情報をピッチフィルタリング部１６５に出力し、ゲインに関する情報をゲイン復号化部１６６に出力する。

信号生成部１６２は、音声符号化装置１００内部の信号生成部１１１に対応する構成である。信号生成部１６２は、低域成分判定部１５３から入力される判定結果が「０」である場合には、乱数信号、または乱数をクリッピングした信号、または予め学習により設計された所定の信号を生成し、スイッチ１６３に出力する。

スイッチ１６３は、低域成分判定部１５３から入力される判定結果が「１」である場合には、第１レイヤ復号化部１５２から入力される第１レイヤ復号スペクトルＳ２(ｋ)（０≦ｋ＜ＦＬ）をフィルタ状態設定部１６４に出力し、判定結果が「０」である場合には、信号生成部１６２から入力される所定の信号をフィルタ状態設定部１６４に出力する。

フィルタ状態設定部１６４は、音声符号化装置１００内部のフィルタ状態設定部１１３に対応する構成である。フィルタ状態設定部１６４は、スイッチ１６３から入力される所定の信号、または第１レイヤ復号スペクトルＳ２(ｋ)（０≦ｋ＜ＦＬ）をピッチフィルタリング部１６５で用いられるフィルタ状態として設定する。ここで、全周波数帯域０≦ｋ＜ＦＨのスペクトルを便宜的にＳ(ｋ)と呼び、Ｓ(ｋ)の０≦ｋ＜ＦＬの帯域には、第１レイヤ復号スペクトルＳ２(ｋ)（０≦ｋ＜ＦＬ）がフィルタの内部状態（フィルタ状態）として格納される。

ピッチフィルタリング部１６５は、音声符号化装置１００内部のピッチフィルタリング部１１５に対応する構成である。ピッチフィルタリング部１６５は、分離部１６１から出力されるピッチ係数Ｔ’と、フィルタ状態設定部１６４で設定されたフィルタ状態とに基づき、第１レイヤ復号スペクトルＳ２(ｋ)に対し上記の式（２）に示すフィルタリングを行う。ピッチフィルタリング部１６５は、これにより入力スペクトルＳ１(ｋ)（０≦ｋ＜ＦＨ）の広帯域に対する推定スペクトルＳ１'(ｋ)（ＦＬ≦ｋ＜ＦＨ）を算出する。ピッチフィルタリング部１６５でも、上記式（１）に示したフィルタ関数が用いられ、算出された推定スペクトルＳ１'(ｋ)（ＦＬ≦ｋ＜ＦＨ）を含む全帯域スペクトルＳ（ｋ）をスペクトル調整部１６８に出力する。

ゲイン復号化部１６６は、音声符号化装置１００のゲイン符号化部１１７が備えるゲイン符号帳と同様のゲイン符号帳を備えており、分離部１６１から入力されるゲインベクトルのインデックスを復号し、さらにゲイン情報Ｂ(ｊ)の量子化値である復号ゲイン情報Ｂ_ｑ(ｊ)を求める。具体的には、ゲイン復号化部１６６は、分離部１６１から入力されるゲインベクトルのインデックスに対応するゲインベクトルを内蔵のゲイン符号帳の中から選択し復号ゲイン情報Ｂ_ｑ(ｊ)として、スペクトル調整部１６８に出力する。

スイッチ１６７は、低域成分判定部１５３から入力される判定結果が「１」である場合のみ、第１レイヤ復号化部１５２から入力される第１レイヤ復号スペクトルＳ２(ｋ)（０≦ｋ＜ＦＬ）をスペクトル調整部１６８に出力する。

スペクトル調整部１６８は、ピッチフィルタリング部１６５から入力される推定スペクトルＳ１'(ｋ)（ＦＬ≦ｋ＜ＦＨ）に、ゲイン復号化部１６６から入力されるサブバンド毎の復号ゲイン情報Ｂ_ｑ(ｊ)を、下記の式（４）に従って乗じる。スペクトル調整部１６８は、これにより推定スペクトルＳ１'(ｋ)の周波数帯域ＦＬ≦ｋ＜ＦＨにおけるスペクトル形状を調整し、復号スペクトルＳ（ｋ)（ＦＬ≦ｋ＜ＦＨ）を生成する。スペクトル調整部１６８は、生成される復号スペクトルＳ（ｋ）を判定部１５５に出力する。

このように復号スペクトルＳ（ｋ）（０≦ｋ＜ＦＨ）の高域部ＦＬ≦ｋ＜ＦＨは調整後の推定スペクトルＳ１'(ｋ)（ＦＬ≦ｋ＜ＦＨ）から成る。ただし、音声符号化装置１００内部のピッチフィルタリング部１１５の動作で説明したように、低域成分判定部１５３から第２レイヤ復号化部１５４に入力される判定結果が「０」である場合には、復号スペクトルＳ（ｋ）（０≦ｋ＜ＦＨ）の低域部０≦ｋ＜ＦＬは、第１復号レイヤスペクトルＳ２（ｋ）（０≦ｋ＜ＦＬ）から構成されるのではなく、信号生成部１６２において生成された所定の信号から構成される。この所定の信号はフィルタ状態設定部１６４−ピッチフィルタリング部１６５−ゲイン復号化部１６６における高域成分の復号処理には必要であるが、そのまま復号信号に含まれて出力されると、雑音となり復号信号の音質劣化が生じる。従って、低域成分判定部１５３から第２レイヤ復号化部１５４に入力される判定結果が「０」である場合には、スペクトル調整部１６８は、第１レイヤ復号化部１５２から入力される第１復号レイヤスペクトルＳ２（ｋ）（０≦ｋ＜ＦＬ）を全帯域スペクトルＳ（ｋ）（０≦ｋ＜ＦＨ）の低域部に代入する。本実施の形態では判定結果に基づき、判定結果が「入力信号に低域成分が存在しない」ことを示す場合に、第１レイヤ復号スペクトルＳ２(ｋ)を復号スペクトルＳ（ｋ）の低域部０≦ｋ＜ＦＬに代入する。

こうして音声復号化装置１５０は、音声符号化装置１００で生成された符号化データを復号することができる。

このように、本実施の形態によれば、第１レイヤ符号化部により生成される第１レイヤ復号信号(または第１レイヤ復号スペクトル)の低域成分の有無を判定し、低域成分が存在しない場合には低域部に所定の成分を配置し、第２レイヤ符号化部にて低域部に配置された所定の信号を用いて高域成分の推定およびゲイン調整を行う。これにより、スペクトルの低域部を利用して高域部を高能率に符号化することができるので、音声信号の一部の区間において低域成分が存在しない場合でも、復号信号の音質劣化を低減することができる。

また、本実施の形態によれば第２符号化処理の構成を大きく変更せず本発明の課題を解決するため、本発明を実現するハードウェア(もしくはソフトウェア)の規模を所定のレベルに制限することができる。

なお、本実施の形態では、低域成分判定部１０４および低域成分判定部１５３での判定の方法として、低域成分のエネルギーを所定の閾値と比較する場合を例にとって説明したが、この閾値を時間的に変化させて用いても良い。例えば、公知の有音/無音判定技術と組み合わせて、無音と判定された場合にそのときの低域成分エネルギーを用いて閾値を更新する。これにより、信頼性の高い閾値が算出されるようになり、より正確の低域成分の有無の判定を行うことができる。

本実施の形態では、スペクトル調整部１６８は、第１復号レイヤスペクトルＳ２（ｋ）（０≦ｋ＜ＦＬ）を全帯域スペクトルＳ（ｋ）（０≦ｋ＜ＦＨ）の低域部に代入する場合を例にとって説明したが、第１復号レイヤスペクトルＳ２（ｋ）（０≦ｋ＜ＦＬ）の代わりにゼロ値を代入しても良い。

また、本実施の形態は、以下に示すような構成も採り得る。図７は、音声符号化装置１００の別の構成１００ａを示すブロック図である。また、図８は、対応する音声復号化装置１５０ａの主要な構成を示すブロック図である。音声符号化装置１００および音声復号化装置１５０と同様の構成については同一の符号を付し、基本的に、詳細な説明は省略する。

図７において、ダウンサンプリング部１２１は、時間領域の入力音声信号をダウンサンプリングして、所望のサンプリングレートに変換する。第１レイヤ符号化部１０２は、ダウンサンプリング後の時間領域信号に対し、ＣＥＬＰ符号化を用いて符号化を行い、第１レイヤ符号化データを生成する。第１レイヤ復号化部１０３は、第１レイヤ符号化データを復号して第１レイヤ復号信号を生成する。周波数領域変換部１２２は、第１レイヤ復号信号の周波数分析を行って第１レイヤ復号スペクトルを生成する。低域成分判定部１０４は、第１レイヤ復号スペクトルに低域成分が存在するか否かを判定し、判定結果を出力する。遅延部１２３は、入力音声信号に対し、ダウンサンプリング部１２１−第１レイヤ符号化部１０２−第１レイヤ復号化部１０３で生じる遅延に相当する遅延を与える。周波数領域変換部１２４は、遅延後の入力音声信号の周波数分析を行って入力スペクトルを生成する。第２レイヤ符号化部１０５は、判定結果、第１レイヤ復号スペクトル、および入力スペクトルを用いて第２レイヤ符号化データを生成する。多重化部１０６は、第１レイヤ符号化データおよび第２レイヤ符号化データを多重化し、符号化データとして出力する。

また、図８において、第１レイヤ復号化部１５２は、分離部１５１から出力される第１レイヤ符号化データを復号して第１レイヤ復号信号を得る。アップサンプリング部１７１は、第１レイヤ復号信号のサンプリングレートを入力信号と同じサンプリングレートに変換する。周波数領域変換部１７２は、第１レイヤ復号信号を周波数分析して第１レイヤ復号スペクトルを生成する。低域成分判定部１５３は、第１レイヤ復号スペクトルに低域成分が存在するか否かを判定し、判定結果を出力する。第２レイヤ復号化部１５４は、判定結果および第１レイヤ復号スペクトルを用いて、分離部１５１から出力される第２レイヤ符号化データを復号し第２レイヤ復号スペクトルを得る。時間領域変換部１７３は、第２レイヤ復号スペクトルを時間領域信号に変換し、第２レイヤ復号信号を得る。判定部１５５は、分離部１５１から出力されるレイヤ情報に基づき、第１レイヤ復号信号を、または第１レイヤ復号信号および第２レイヤ復号信号の両方を出力する。

このように、上記バリエーションでは、第１レイヤ符号化部１０２が時間領域で符号化処理を行う。第１レイヤ符号化部１０２では、音声信号を低ビットレートで高品質に符号化できるＣＥＬＰ符号化が用いられる。よって、第１レイヤ符号化部１０２でＣＥＬＰ符号化が使用されるため、スケーラブル符号化装置全体のビットレートを小さくすることが可能となり、かつ高品質化も実現できる。また、ＣＥＬＰ符号化は、変換符号化に比べて原理遅延（アルゴリズム遅延）を短くすることができるため、スケーラブル符号化装置全体の原理遅延も短くなり、双方向通信に適した音声符号化処理および音声復号化処理を実現することができる。

（実施の形態２）
本発明の実施の形態２では、第１レイヤ復号信号の低域成分の有無の判定結果に応じて、第２レイヤ符号化に用いられるゲイン符号帳を切り替える点において本発明の実施の形態１と相違する。この相違点を示すため、本実施の形態に係るゲイン符号帳を切り替えて用いる第２レイヤ符号化部２０５に、実施の形態１に示した第２レイヤ符号化部１０５と異なる符号を付す。

図９は、第２レイヤ符号化部２０５の主要な構成を示すブロック図である。第２レイヤ符号化部２０５は、実施の形態１に示した第２レイヤ符号化部１０５（図４参照）と同一の構成要素には同一の符号を付し、その説明を省略する。

第２レイヤ符号化部２０５において、ゲイン符号化部２１７は、低域成分判定部１０４から判定結果がさらに入力される点において、実施の形態１に示した第２レイヤ符号化部１０５のゲイン符号化部１１７と相違し、それを示すために異なる符号を付す。

図１０は、ゲイン符号化部２１７の内部の主要な構成を示すブロック図である。

第１ゲイン符号帳２７１は、音声信号などの学習データを用いて設計されたゲイン符号帳であり、通常の入力信号に適した複数のゲインベクトルから構成される。第１ゲイン符号帳２７１は、探索部２７６から入力されるインデックスに対応するゲインベクトルをスイッチ２７３に出力する。

第２ゲイン符号帳２７２は、ある一つの要素または限定された数の複数の要素が、他の要素に比べて明らかに大きな値をとるようなベクトルを複数備えるゲイン符号帳である。ここでは、例えば、ある一つの要素または限定された数の複数の要素と他の要素それぞれとの差を所定の閾値と比較し、所定の閾値より大きい場合には、他の要素より明らかに大きいと見なすことができる。第２ゲイン符号帳２７２は、探索部２７６から入力されるインデックスに対応するゲインベクトルをスイッチ２７３に出力する。

図１１は、第２ゲイン符号帳２７２に含まれるゲインベクトルを例示する図である。この図においては、ベクトル次元Ｊ＝８の場合を示している。この図に示すように、ベクトルのある一つの要素は他の要素より明らかに大きな値をとる。このような第２ゲイン符号帳２７２を用いることにより、高域成分に正弦波（線スペクトル）または限定された数の複数の正弦波より成る波形が入力される場合に、その正弦波が含まれるサブバンドのゲインが大きく、他のサブバンドのゲインが小さいゲインベクトルを選択することができる。従って、音声符号化装置に入力される正弦波をより正確に符号化することができる。

再び、図１０に戻って、スイッチ２７３は、低域成分判定部１０４から入力される判定結果が「１」である場合には、第１ゲイン符号帳２７１から入力されるゲインベクトルを誤差算出部２７５に出力し、判定結果が「０」である場合には、第２ゲイン符号帳２７２から入力されるゲインベクトルを誤差算出部２７５に出力する。

ゲイン算出部２７４は、周波数領域変換部１０１から出力される入力スペクトルＳ１(ｋ)（０≦ｋ＜ＦＨ）の高域部ＦＬ≦ｋ＜ＦＨに基づき、入力スペクトルＳ１(ｋ)のゲイン情報Ｂ（ｊ）を上記の式（３）に従って算出する。ゲイン算出部２７４は、算出されたゲイン情報Ｂ（ｊ）を誤差算出部２７５に出力する。

誤差算出部２７５は、ゲイン算出部２７４から入力されるゲイン情報Ｂ（ｊ）と、スイッチ２７３から入力されるゲインベクトルとの誤差Ｅ（ｉ）を下記の式（５）に従い算出する。ここで、Ｇ（ｉ，ｊ）はスイッチ２７３から入力されるゲインベクトルを表し、インデックス「ｉ」は、ゲインベクトルＧ（ｉ，ｊ）が第１ゲイン符号帳２７１または第２ゲイン符号帳２７２の何番目であるかを表す。

誤差算出部２７５は、算出された誤差Ｅ（ｉ）を探索部２７６に出力する。

探索部２７６は、ゲインベクトルを示すインデックスを順次に変えながら第１ゲイン符号帳２７１または第２ゲイン符号帳２７２に出力する。また、第１ゲイン符号帳２７１、第２ゲイン符号帳２７２、スイッチ２７３、誤差算出部２７５、探索部２７６の処理は閉ループとなっており、探索部２７６は、誤差算出部２７５から入力される誤差Ｅ（ｉ）が最小となるゲインベクトルを決定する。探索部２７６は、決定されたゲインベクトルを示すインデックスを多重化部１１８に出力する。

図１２は、本実施の形態に係る音声復号化装置が備える第２レイヤ復号化部２５４の内部の主要な構成を示すブロック図である。第２レイヤ復号化部２５４は、実施の形態１に示した第２レイヤ復号化部１５４（図６参照）と同一の構成要素には同一の符号を付し、その説明を省略する。

第２レイヤ復号化部２５４において、ゲイン復号化部２６６は、低域成分判定部１５３から判定結果がさらに入力される点において、実施の形態１に示した第２レイヤ復号化部１５４のゲイン復号化部１６６と相違し、それを示すために異なる符号を付す。

図１３は、ゲイン復号化部２６６の内部の主要な構成を示すブロック図である。

スイッチ２８１は、低域成分判定部１５３から入力される判定結果が「１」である場合には、分離部１６１から入力されるゲインベクトルのインデックスを第１ゲイン符号帳２８２に出力し、判定結果が「０」である場合には、分離部１６１から入力されるゲインベクトルのインデックスを第２ゲイン符号帳２８３に出力する。

第１ゲイン符号帳２８２は、本実施の形態に係るゲイン符号化部２１７が備える第１ゲイン符号帳２７１と同様なゲイン符号帳であり、スイッチ２８１から入力されるインデックスに対応するゲインベクトルをスイッチ２８４に出力する。

第２ゲイン符号帳２８３は、本実施の形態に係るゲイン符号化部２１７が備える第２ゲイン符号帳２７２と同様なゲイン符号帳であり、スイッチ２８１から入力されるインデックスに対応するゲインベクトルをスイッチ２８４に出力する。

スイッチ２８４は、低域成分判定部１５３から入力される判定結果が「１」である場合には、第１ゲイン符号帳２８２から入力されるゲインベクトルをスペクトル調整部１６８に出力し、判定結果が「０」である場合には、第２ゲイン符号帳２８３から入力されるゲインベクトルをスペクトル調整部１６８に出力する。

このように、本実施の形態によれば、第２レイヤ符号化に用いるゲイン符号帳を複数備え、第１レイヤ復号信号の低域成分の有無の判定結果に応じて用いるゲイン符号帳を切り替える。低域成分を含まず高域成分のみを含むような入力信号に対して、通常の音声信号に適したゲイン符号帳とは異なるゲイン符号帳を用いて符号化することにより、スペクトルの低域部を利用して高域部を高能率に符号化することができる。従って、音声信号の一部の区間において低域成分が存在しない場合、復号信号の音質劣化をさらに低減することができる。

（実施の形態３）
図１４は、本発明の実施の形態３に係る音声符号化装置３００の主要な構成を示すブロック図である。音声符号化装置３００は、実施の形態１に示した音声符号化装置１００の別の構成１００ａ（図７参照）と同一の構成要素には同一の符号を付し、その説明を省略する。

音声符号化装置３００は、ＬＰＣ（Linear Prediction Coefficient）分析部３０１、ＬＰＣ係数量子化部３０２、およびＬＰＣ係数復号化部３０３をさらに有する点において、音声符号化装置１００ａと相違する。なお、音声符号化装置３００の低域成分判定部３０４と、音声符号化装置１００ａの低域成分判定部１０４とは処理の一部に相違点があり、それを示すために異なる符号を付す。

ＬＰＣ分析部３０１は、遅延部１２３から入力される遅延後の入力信号に対して、ＬＰＣ分析を行い、得られるＬＰＣ係数をＬＰＣ係数量子化部３０２に出力する。以下、ＬＰＣ分析部３０１で得られたこのＬＰＣ係数を全帯域ＬＰＣ係数と呼ぶ。

ＬＰＣ係数量子化部３０２は、ＬＰＣ分析部３０１から入力される全帯域ＬＰＣ係数を量子化に適したパラメータ、例えばＬＳＰ(Line Spectral Pair)、ＬＳＦ(Line Spectral Frequencies)などに変換し、変換により得られたパラメータを量子化する。ＬＰＣ係数量子化部３０２は、量子化により得られる全帯域ＬＰＣ係数符号化データを多重化部１０６に出力するとともに、ＬＰＣ係数復号化部３０３に出力する。

ＬＰＣ係数復号化部３０３は、ＬＰＣ係数量子化部３０２から入力される全帯域ＬＰＣ係数符号化データを用いてＬＳＰまたはＬＳＦなどのパラメータを復号し、復号されたＬＳＰまたはＬＳＦなどのパラメータをＬＰＣ係数に変換して復号全帯域ＬＰＣ係数を求める。ＬＰＣ係数復号化部３０３は、求められた復号全帯域ＬＰＣ係数を低域成分判定部３０４に出力する。

低域成分判定部３０４は、ＬＰＣ係数復号化部３０３から入力される復号全帯域ＬＰＣ係数を用いてスペクトル包絡を算出し、算出されたスペクトル包絡の低域部と高域部とのエネルギー比を求める。低域成分判定部３０４は、スペクトル包絡の低域部と高域部とのエネルギー比が所定の閾値以上である場合には、低域成分が存在するという判定結果として「１」を第２レイヤ符号化部１０５に出力し、スペクトル包絡の低域部と高域部とのエネルギー比が所定の閾値より小さい場合には、低域成分が存在しないという判定結果として「０」を第２レイヤ符号化部１０５に出力する。

図１５は、本実施の形態に係る音声復号化装置３５０の主要な構成を示すブロック図である。なお、音声復号化装置３５０は、実施の形態１に示した音声復号化装置１５０の別の構成１５０ａ（図８参照）と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

音声復号化装置３５０は、ＬＰＣ係数復号化部３５２をさらに具備する点において、音声復号化装置１５０ａと相違する。なお、音声復号化装置３５０の分離部３５１および低域成分判定部３５３は、音声復号化装置１５０ａの分離部１５１および低域成分判定部１５３と処理の一部に相違点があり、それを示すために異なる符号を付す。

分離部３５１は、無線送信装置から伝送されたビットストリームに重畳された符号化データから全帯域ＬＰＣ係数符号化データをさらに分離し、ＬＰＣ係数復号化部３５２に出力する点において、音声復号化装置１５０ａの分離部１５１と相違する。

ＬＰＣ係数復号化部３５２は、分離部３５１から入力される全帯域ＬＰＣ係数符号化データを用いてＬＳＰまたはＬＳＦなどのパラメータを復号し、復号されたＬＳＰまたはＬＳＦなどのパラメータをＬＰＣ係数に変換して復号全帯域ＬＰＣ係数を求める。ＬＰＣ係数復号化部３５２は、求められた復号全帯域ＬＰＣ係数を低域成分判定部３５３に出力する。

低域成分判定部３５３は、ＬＰＣ係数復号化部３５２から入力される復号全帯域ＬＰＣ係数を用いてスペクトル包絡を算出し、算出されたスペクトル包絡の低域部と高域部のエネルギー比を求める。低域成分判定部３５３は、スペクトル包絡の低域部と高域部とのエネルギー比が所定の閾値以上である場合には、低域成分が存在するという判定結果として「１」を第２レイヤ復号化部１５４に出力し、スペクトル包絡の低域部と高域部とのエネルギー比が所定の閾値より小さい場合には、低域成分が存在しないという判定結果として「０」を第２レイヤ復号化部１５４に出力する。

このように、本実施の形態によれば、ＬＰＣ係数を元にスペクトル包絡を求め、このスペクトル包絡の低域部と高域部とのエネルギー比を用いて低域成分の有無を判定するため、信号の絶対エネルギーに依存しない判定を行うことができる。また、スペクトルの低域部を利用して高域部を高能率に符号化する場合において、音声信号の一部の区間において低域成分が存在しない場合、復号信号の音質劣化をさらに低減することができる。

（実施の形態４）
図１６は、本発明の実施の形態４に係る音声符号化装置４００の主要な構成を示すブロック図である。音声符号化装置４００は、実施の形態３に示した音声符号化装置３００（図１４参照）と同一の構成要素には同一の符号を付し、その説明を省略する。

音声符号化装置４００は、低域成分判定部３０４が判定結果を第２レイヤ符号化部１０５ではなく、ダウンサンプリング部４２１に出力する点において、音声符号化装置３００と相違する。なお、音声符号化装置４００のダウンサンプリング部４２１、第２レイヤ符号化部４０５と、音声符号化装置３００のダウンサンプリング部１２１、第２レイヤ符号化部１０５とは処理の一部に相違点があり、それを示すために異なる符号を付す。

図１７は、ダウンサンプリング部４２１の内部の主要な構成を示すブロック図である。

スイッチ４２２は、低域成分判定部３０４から入力される判定結果が「１」である場合には、入力される音声信号を低域通過フィルタ４２３に出力し、判定結果が「０」である場合には、入力される音声信号を直接スイッチ４２４に出力する。

低域通過フィルタ４２３は、スイッチ４２２から入力される音声信号の高域部ＦＬ〜ＦＨを遮断し、低域０〜ＦＬのみを通過させてスイッチ４２４に出力する。低域通過フィルタ４２３が出力する信号のサンプリングレートは、スイッチ４２２に入力される音声信号のサンプリングレートと同様である。

スイッチ４２４は、低域成分判定部３０４から入力される判定結果が「１」である場合には、低域通過フィルタ４２３から入力される音声信号の低域成分を間引き部４２５に出力し、判定結果が「０」である場合には、直接スイッチ４２２から入力される音声信号を間引き部４２５に出力する。

間引き部４２５は、スイッチ４２４から入力される音声信号、または音声信号の低域成分を間引きすることによりサンプリングレートを低下させ、第１レイヤ符号化部１０２に出力する。例えば、スイッチ４２４から入力される音声信号、または音声信号のサンプリングレートが１６ｋＨｚである場合、間引き部４２５は、１サンプルおきにサンプルを選択することにより、サンプリングレートを８ｋＨｚに低下させて出力する。

このように、ダウンサンプリング部４２１は、低域成分判定部３０４から入力される判定結果が「０」である場合、すなわち、入力される音声信号に低域成分が存在しない場合には、音声信号に対し低域通過フィルタリング処理を行わず、直接間引き処理を行う。これにより、音声信号の低域部に折り返し歪みが発生し、高域部にのみ存在していた成分が低域部に鏡像となって現れる。

図１８は、ダウンサンプリング部４２１において、低域通過フィルタリング処理が行われず、直接間引き処理が行われる場合、スペクトルの変化の様子を示す図である。ここでは、入力信号のサンプリングレートが１６ｋＨｚであり、間引きにより得られる信号のサンプリングレートが８ｋＨｚである場合を説明する。かかる場合、間引き部４２５では１サンプルおきにサンプルを選択して出力する。また、この図においては、横軸は周波数を示し、ＦＬ＝４ｋＨｚ、ＦＨ＝８ｋＨｚとし、縦軸はスペクトル振幅値を示す。

図１８Ａは、ダウンサンプリング部４２１に入力される信号のスペクトルを示している。図１８Ａに示す入力信号に対し低域通過フィルタ処理が行われず、直接間引き部４２５において１サンプルおきの間引き処理が行われる場合、図１８Ｂに示すようにＦＬを対称にして折り返し歪が現れる。間引き処理によりサンプリングレートは８ｋＨｚとなるため、信号帯域は０〜ＦＬとなる。よって、図１８Ｂの横軸は最大ＦＬとなる。本実施の形態では図１８Ｂに示すような低域成分を含む信号をダウンサンプリング後の信号処理に用いる。すなわち、入力信号に低域成分が存在しない場合、低域部に所定の信号を配置する代わりに低域部に生成された高域部の鏡像を用いて高域部の符号化を行う。よって、低域成分には高域成分のスペクトル形状の特徴(ピーク性が強い、雑音性が強いなど)が反映されることとなり、高域成分をより正確に符号化することができる。

図１９は、本実施の形態に係る第２レイヤ符号化部４０５の主要な構成を示すブロック図である。第２レイヤ符号化部４０５は、実施の形態１に示した第２レイヤ符号化部１０５（図４参照）と同一の構成要素には同一の符号を付し、その説明を省略する。

第２レイヤ符号化部４０５は、信号生成部１１１およびスイッチ１１２を不要とする点において、実施の形態１に示した第２レイヤ符号化部１０５と相違する。その理由は、本実施の形態では入力される音声信号が低域成分を含まない場合には、低域部に所定の信号を配置するのではなく、入力された音声信号に対し低域通過フィルタリング処理を行わず直接間引き処理を行い、得られた信号を用いて第１レイヤ符号化処理および第２レイヤ符号化処理を行うためである。よって、第２レイヤ符号化部４０５では低域成分判定部の判定結果に基づき所定の信号を生成する必要がない。

図２０は、本実施の形態に係る音声復号化装置４５０の主要な構成を示すブロック図である。音声復号化装置４５０は、本発明の実施の形態３に係る音声復号化装置３５０（図１５参照）と同一の構成要素には同一の符号を付し、その説明を省略する。音声復号化装置４５０の第２レイヤ復号化部４５４は、音声復号化装置３５０の第２レイヤ復号化部１５４と処理の一部に相違点があり、それを示すために異なる符号を付す。

図２１は、本実施の形態に係る音声復号化装置が備える第２レイヤ復号化部４５４の主要な構成を示すブロック図である。第２レイヤ復号化部４５４は、図６に示した第２レイヤ復号化部１５４と同一の構成要素には同一の符号を付し、その説明を省略する。

第２レイヤ復号化部４５４は、信号生成部１６２、スイッチ１６３、およびスイッチ１６７を不要とする点において、実施の形態１に示した第２レイヤ復号化部１５４と相違する。その理由は、本実施の形態に係る音声符号化装置４００に入力される音声信号に低域成分を含まない場合には、低域部に所定の信号を配置するのではなく、入力された音声信号に対し低域通過フィルタリング処理を行わず直接間引き処理を行い、得られた信号を用いて第１レイヤ符号化処理および第２レイヤ符号化処理を行ったためである。よって、第２レイヤ復号化部４５４でも低域成分判定部の判定結果に基づき所定の信号を生成して復号を行う必要がない。

また、第２レイヤ復号化部４５４のスペクトル調整部４６８は、低域成分判定部３５３から入力される判定結果が「０」である場合には、第１復号レイヤスペクトルＳ２（ｋ）（０≦ｋ＜ＦＬ）ではなくゼロ値を全帯域スペクトルＳ（ｋ）（０≦ｋ＜ＦＨ）の低域部に代入する点において、第２レイヤ復号化部１５４のスペクトル調整部１６８と相違し、それを示すために異なる符号を付す。スペクトル調整部４６８がゼロ値を全帯域スペクトルＳ（ｋ）（０≦ｋ＜ＦＨ）の低域部に代入する理由は、低域成分判定部３５３から入力される判定結果が「０」である場合には、第１復号レイヤスペクトルＳ２（ｋ）（０≦ｋ＜ＦＬ）は音声符号化装置４００に入力される音声信号の高域部の鏡像であるためである。この鏡像はフィルタ状態設定部１６４−ピッチフィルタリング部１６５−ゲイン復号化部１６６における高域成分の復号処理には必要であるが、そのまま復号信号に含まれて出力されると、雑音となり復号信号の音質劣化が生じる。

このように、本実施の形態によれば、入力信号が低域成分を含まず高域成分のみ含む場合、ダウンサンプリング部４２１において低域通過フィルタリング処理を行わず、直接間引き処理を行い、入力信号の低域部に折り返し歪みを生成して符号化を行う。このため、スペクトルの低域部を利用して高域部を高能率に符号化する場合において、音声信号の一部の区間において低域成分が存在しない場合、復号信号の音質劣化をさらに低減することができる。

なお、本実施の形態において復号信号の音質劣化をさらに低減するために、音声符号化装置４００のダウンサンプリング部４２１は低域部に生成された高域部の鏡像のスペクトルに対しさらに反転処理行っても良い。

図２２は、ダウンサンプリング部４２１の別の構成４２１ａを示すブロック図である。ダウンサンプリング部４２１ａは、ダウンサンプリング部４２１（図１７参照）と同一の構成要素には同一の符号を付し、その説明を省略する。

ダウンサンプリング部４２１ａは、スイッチ４２４が間引き部４２５の後段に設けられる点、および間引き部４２６、スペクトル反転部４２７をさらに有する点においてダウンサンプリング部４２１と相違する。

間引き部４２６は、入力される信号のみが間引き部４２５と相違し、動作は間引き部４２５と同様であるため、詳しい説明を省略する。

スペクトル反転部４２７は、ＦＬ／２を対称にして、間引き部４２６から入力される信号に対してスペクトルの反転処理を行い、得られる信号をスイッチ４２４に出力する。具体的には、スペクトル反転部４２７は、間引き部４２６から入力される信号に対して時間領域にて下記の式（６）に従う処理を施し、スペクトルを反転させる。

この式において、ｘ（ｎ）は入力信号を、ｙ（ｎ）は出力信号を示し、この式に従う処理は、奇数サンプルに−１を乗じる処理となる。この処理により、高周波のスペクトルが低周波に、低周波のスペクトルが高周波に配置されるようにスペクトルが反転される。

図２３は、ダウンサンプリング部４２１ａにおいて、低域通過フィルタリング処理が行われず、直接間引き処理が行われる場合、スペクトルの変化の様子を示す図である。図２３Ａおよび図２３Ｂは、図１８Ａおよび図１８Ｂと同様であるため、その説明を省略する。ダウンサンプリング部４２１ａのスペクトル反転部４２７は、図２３Ｂに示すスペクトルを、ＦＬ／２を対称にして反転させ、図２３Ｃに示すスペクトルを得る。これにより、図２３Ｃに示す低域のスペクトルは、図１８Ｂに示す低域のスペクトルに比べ、図１８Ａまたは図２３Ａに示す高域のスペクトルにより類似する。従って、図２３Ｃに示す低域のスペクトルを用いて高域の符号化を行う場合、復号信号の音質劣化をさらに低減することができる。

また、本実施の形態では、入力される音声信号に低域成分が存在しない場合、ダウンサンプリング部において低域通過フィルタリング処理を行わず、直接間引き処理を行う場合を例にとって説明したが、低域通過フィルタリング処理を完全に省くのではなく、低域通過フィルタの特性を弱めることにより折り返し歪みを発生させても良い。

以上、本発明の各実施の形態について説明した。

なお、上記各実施の形態においては、符号化側で、例えば、第２レイヤ符号化部１０５内の多重化部１１８でデータを多重化してから、更に、多重化部１０８で第１レイヤと第２レイヤの符号化データを多重化するという、二段階で多重化する構成を説明したが、これに限らず、多重化部１１８を設けずに多重化部１０６で一括してデータを多重化するという構成であっても良い。

復号化側でも同様に、例えば、分離部１５１で一旦符号化データを分離してから、更に、第２レイヤ復号化部１５４内の分離部１６１で第２レイヤ符号化データを分離するという、二段階で分離する構成を説明したが、これに限らず、分離部１５１で一括してデータを分離することで分離部１６１を不要とするという構成であっても良い。

また、本発明における周波数領域変換部１０１、周波数領域変換部１２２、周波数領域変換部１２４、および周波数領域変換部１７２は、ＭＤＣＴ以外にＤＦＴ(Discrete Fourier Transform)、ＦＦＴ(Fast Fourier Transform)、ＤＣＴ(Discrete Cosine Transform)、フィルタバンクなどを用いることも可能である。

また、本発明に係る音声符号化装置に入力される信号が音声信号およびオーディオ信号のどちらであっても、本発明を適用可能である。

また、本発明に係る音声符号化装置に入力される信号として、音声信号またはオーディオ信号の代わりにＬＰＣ予測残差信号であっても、本発明を適用することが可能である。

また、本発明に係る音声符号化装置、音声復号化装置等は、上記各実施の形態に限定されず、種々変更して実施することが可能である。例えば、階層数が２以上のスケーラブル構成にも適用可能である。

また、本発明に係る音声符号化装置の入力信号は、音声信号だけでなく、オーディオ信号でも良い。また、入力信号の代わりに、ＬＰＣ予測残差信号に対して本発明を適用する構成であっても良い。

また、本発明に係る音声符号化装置および音声復号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。

また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る音声符号化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部または全てを含むように１チップ化されても良い。

また、ここではＬＳＩとしたが、集積度の違いによって、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらに、半導体技術の進歩または派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。

２００６年１１月２日出願の特願２００６−２９９５２０の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

本発明に係る音声符号化装置等は、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用することができる。

信号生成部１１１は、低域成分判定部１０４から入力される判定結果が「０」である場
合に、乱数信号、または乱数をクリッピングした信号、または予め学習により設計された所定の信号を生成し、スイッチ１１２に出力する。

すなわち、Ｓ１'(ｋ)には、基本的に、このｋよりＴだけ低い周波数のスペクトルＳ(ｋ−Ｔ)が代入される。但し、スペクトルの円滑性を増すために、実際には、スペクトルＳ(ｋ−Ｔ)からｉだけ離れた近傍のスペクトルＳ(ｋ−Ｔ＋ｉ)に所定のフィルタ係数β_ｉを乗じて得られるスペクトルβ_ｉ・Ｓ(ｋ−Ｔ＋ｉ)を、全てのｉについて加算し、加算結果
となるスペクトルをＳ１'(ｋ)に代入する。

分離部１６１は、分離部１５１から出力される第２レイヤ符号化データを、フィルタリングに関する情報である最適なピッチ係数Ｔ’と、ゲインに関する情報であるゲインベクトルのインデックスとに分離する。そして、分離部１６１は、フィルタリングに関する情報をピッチフィルタリング部１６５に出力し、ゲインに関する情報をゲイン復号化部１６
６に出力する。

図９は、第２レイヤ符号化部２０５の主要な構成を示すブロック図である。第２レイヤ符号化部２０５は、実施の形態１に示した第２レイヤ符号化部１０５（図４参照）と同一
の構成要素には同一の符号を付し、その説明を省略する。

探索部２７６は、ゲインベクトルを示すインデックスを順次に変えながら第１ゲイン符
号帳２７１または第２ゲイン符号帳２７２に出力する。また、第１ゲイン符号帳２７１、第２ゲイン符号帳２７２、スイッチ２７３、誤差算出部２７５、探索部２７６の処理は閉ループとなっており、探索部２７６は、誤差算出部２７５から入力される誤差Ｅ（ｉ）が最小となるゲインベクトルを決定する。探索部２７６は、決定されたゲインベクトルを示すインデックスを多重化部１１８に出力する。

音声符号化装置３００は、ＬＰＣ（Linear Prediction Coefficient）分析部３０１、
ＬＰＣ係数量子化部３０２、およびＬＰＣ係数復号化部３０３をさらに有する点において、音声符号化装置１００ａと相違する。なお、音声符号化装置３００の低域成分判定部３０４と、音声符号化装置１００ａの低域成分判定部１０４とは処理の一部に相違点があり、それを示すために異なる符号を付す。

低域成分判定部３５３は、ＬＰＣ係数復号化部３５２から入力される復号全帯域ＬＰＣ
係数を用いてスペクトル包絡を算出し、算出されたスペクトル包絡の低域部と高域部のエネルギー比を求める。低域成分判定部３５３は、スペクトル包絡の低域部と高域部とのエネルギー比が所定の閾値以上である場合には、低域成分が存在するという判定結果として「１」を第２レイヤ復号化部１５４に出力し、スペクトル包絡の低域部と高域部とのエネルギー比が所定の閾値より小さい場合には、低域成分が存在しないという判定結果として「０」を第２レイヤ復号化部１５４に出力する。

このように、ダウンサンプリング部４２１は、低域成分判定部３０４から入力される判定結果が「０」である場合、すなわち、入力される音声信号に低域成分が存在しない場合には、音声信号に対し低域通過フィルタリング処理を行わず、直接間引き処理を行う。これにより、音声信号の低域部に折り返し歪みが発生し、高域部にのみ存在していた成分が
低域部に鏡像となって現れる。

図２３は、ダウンサンプリング部４２１ａにおいて、低域通過フィルタリング処理が行われず、直接間引き処理が行われる場合、スペクトルの変化の様子を示す図である。図２３Ａおよび図２３Ｂは、図１８Ａおよび図１８Ｂと同様であるため、その説明を省略する。ダウンサンプリング部４２１ａのスペクトル反転部４２７は、図２３Ｂに示すスペクト
ルを、ＦＬ／２を対称にして反転させ、図２３Ｃに示すスペクトルを得る。これにより、図２３Ｃに示す低域のスペクトルは、図１８Ｂに示す低域のスペクトルに比べ、図１８Ａまたは図２３Ａに示す高域のスペクトルにより類似する。従って、図２３Ｃに示す低域のスペクトルを用いて高域の符号化を行う場合、復号信号の音質劣化をさらに低減することができる。

以上、本発明の各実施の形態について説明した。

また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る音声符号化方法の
アルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。

Claims

入力した音声信号の基準周波数より低い帯域である低域部の成分を符号化して第１レイヤ符号化データを得る第１レイヤ符号化手段と、
前記音声信号の低域部の成分の有無を判定する判定手段と、
前記音声信号に低域部の成分が存在する場合には、前記音声信号の低域部の成分を用い前記音声信号の基準周波数以上の帯域である高域部の成分を符号化して第２レイヤ符号化データを得、前記音声信号に低域部の成分が存在しない場合には、前記音声信号の低域部に配置された所定の信号を用いて前記音声信号の高域部の成分を符号化して第２レイヤ符号化データを得る第２レイヤ符号化手段と、
を具備する音声符号化装置。
前記第２レイヤ符号化手段は、
前記音声信号に低域部の成分が存在しない場合のみ、所定の信号を生成して前記音声信号の低域部分に配置する信号生成手段と、
前記音声信号の低域部に配置された前記所定の信号に対しピッチフィルタリング処理を行い前記音声信号の高域部の成分の推定スペクトルを示すフィルタ情報を得る推定手段と、
前記音声信号の高域部の成分のゲインを符号化しゲイン符号化データを得るゲイン符号化手段と、
前記フィルタ情報および前記ゲイン符号化データを多重化して前記第２レイヤ符号化データを得る多重化手段と、
を具備する請求項１記載の音声符号化装置。
前記ゲイン符号化手段は、
複数のゲイン符号帳を具備し、そのうち、前記音声信号の低域部の成分が存在しない場合に用いられるゲイン符号帳は、１つの要素と他の要素それぞれとの差が所定の閾値より大きいゲインベクトルからなる、
請求項２記載の音声符号化装置。
前記判定手段は、
前記音声信号の低域部の成分のエネルギが所定の第１閾値より低い場合には、前記低域部の成分が存在しないと判定し、前記音声信号の低域部の成分のエネルギが前記第１閾値以上である場合には、前記低域部の成分が存在すると判定する、
請求項１記載の音声符号化装置。
前記音声信号を用いてＬＰＣ（Linear Prediction Coefficient）分析を行ってＬＰＣ係数の包絡スペクトルを得るＬＰＣ分析手段を具備し、
前記判定手段は、
前記包絡スペクトルの基準周波数より低い帯域である低域部の成分と、前記包絡スペクトルの基準周波数以上の帯域である高域部の成分とのエネルギ比が所定の第２閾値より低い場合には、前記低域部の成分が存在しないと判定し、前記エネルギ比が前記第２閾値以上である場合には、前記低域部の成分が存在すると判定する、
請求項１記載の音声符号化装置。
前記音声信号に低域部の成分が存在しない場合のみ、前記音声信号に対し直接ダウンサンプリングの間引き処理を行い、前記音声信号の高域部の成分の鏡像スペクトルを前記所定の信号として生成するダウンサンプリング手段、をさらに具備する、
請求項１記載の音声符号化装置。
前記ダウンサンプリング手段は、
さらに前記基準周波数の１／２の周波数を対称にして前記鏡像スペクトルを反転させる、
請求項６記載の音声符号化装置。
音声信号の基準周波数より低い帯域である低域部の成分が符号化された第１レイヤ符号化データを復号する第１レイヤ復号化手段と、
前記音声信号の低域部の成分の有無を判定する判定手段と、
前記音声信号に低域部の成分が存在する場合には、前記音声信号の低域部の成分を用い、前記音声信号の基準周波数以上の帯域である高域部の成分が符号化された第２レイヤ符号化データを復号し、前記音声信号に低域部の成分が存在しない場合には、前記音声信号の低域部に配置された所定の信号を用いて前記音声信号の高域部の成分が符号化された第２レイヤ符号化データを復号する第２レイヤ復号化手段と、
を具備する音声復号化装置。
入力した音声信号の基準周波数より低い帯域である低域部の成分を符号化して第１レイヤ符号化データを得る第１ステップと、
前記音声信号の低域部の成分の有無を判定する第２ステップと、
前記音声信号に低域部の成分が存在する場合には、前記音声信号の低域部の成分を用いて前記音声信号の基準周波数以上の帯域である高域部の成分を符号化して第２レイヤ符号化データを得、前記音声信号に低域部の成分が存在しない場合には、前記音声信号の低域部に配置された所定の信号を用いて前記音声信号の高域部の成分を符号化して第２レイヤ符号化データを得る第３ステップと、
を具備する音声符号化方法。
音声信号の基準周波数より低い帯域である低域部の成分が符号化された第１レイヤ符号化データを復号する第１ステップと、
前記音声信号の低域部の成分の有無を判定する第２ステップと、
前記音声信号に低域部の成分が存在する場合には、前記音声信号の低域部の成分を用いて前記音声信号の基準周波数以上の帯域である高域部の成分が符号化された第２レイヤ符号化データを復号し、前記音声信号に低域部の成分が存在しない場合には、前記音声信号の低域部に配置された所定の信号を用いて前記音声信号の高域部の成分が符号化された第２レイヤ符号化データを復号する第３ステップと、
を具備する音声復号化方法。