JP4958780B2

JP4958780B2 - 符号化装置、復号化装置及びこれらの方法

Info

Publication number: JP4958780B2
Application number: JP2007528236A
Authority: JP
Inventors: 薫佐藤; 利幸森井; 智史山梨
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2005-05-11
Filing date: 2006-04-28
Publication date: 2012-06-20
Anticipated expiration: 2026-04-28
Also published as: DE602006018129D1; EP1881488A1; JPWO2006120931A1; CN101176148B; US7978771B2; US20090016426A1; EP1881488B1; CN101176148A; WO2006120931A1; BRPI0611430A2; EP1881488A4

Description

本発明は、入力信号をスケーラブル符号化して伝送する通信システムに使用される符号化装置、復号化装置及びこれらの方法に関する。

ディジタル無線通信、インターネット通信に代表されるパケット通信あるいは音声蓄積などの分野では、電波などの伝送路容量や記憶媒体の有効利用を図るため、音声信号の符号化／復号化技術が不可欠であり、これまでに多くの音声符号化／復号化方式が開発されてきた。

そして、現在では、ＣＥＬＰ方式の音声符号化／復号化方式が主流の方式として実用化されている（例えば、非特許文献１）。ＣＥＬＰ方式の音声符号化方式は、主に発声音のモデルを記憶し、予め記憶された音声モデルに基づいて入力音声をコード化するものである。

そして、近年、音声信号、楽音信号の符号化において、ＣＥＬＰ方式を応用し、符号化情報の一部からでも音声・楽音信号を復号化でき、パケット損失が発生するような状況においても音質劣化を抑制することができるスケーラブル符号化技術が開発されている（例えば、特許文献１参照）。

スケーラブル符号化方式は、一般的に、基本レイヤと複数の拡張レイヤとからなり、各レイヤは、基本レイヤを最も下位のレイヤとし、階層構造を形成している。そして、各レイヤでは、より下位レイヤの入力信号と出力信号との差である残差信号について符号化が行われる。この構成により、全レイヤの符号化情報もしくは一部のレイヤの符号化情報を用いて、音声・楽音を復号化することができる。

また、スケーラブル符号化においては、一般的に、入力信号のサンプリング周波数変換を行い、ダウンサンプリング後の入力信号を符号化することが行われる。この場合、上位のレイヤが符号化する残差信号は、下位レイヤの復号化信号をアップサンプリングし、入力信号とアップサンプリング後の復号化信号との差を求めることにより、生成される。
特開平１０−９７２９５号公報 M.R.Schroeder, B.S.Atal, "Code Excited Linear Prediction: High Quality Speech at Very Low Bit Rate", IEEE proc., ICASSP'85 pp.937-940

ここで、一般的に、符号化装置は復号化信号の品質劣化の原因となる固有の特性を有する。例えば、ダウンサンプリング後の入力信号を基本レイヤで符号化する場合、サンプリング周波数変換により復号化信号に位相のずれが生じ、復号化信号の品質が劣化する。

しかしながら、従来のスケーラブル符号化方式では、符号化装置に固有の特性を考慮せずに符号化を行っているため、この符号化装置に固有の特性により下位レイヤの復号化信号の品質が劣化し、復号化信号と入力信号との誤差は大きくなり、上位のレイヤの符号化効率を落とす原因となる。

本発明の目的は、スケーラブル符号化方式において、符号化装置に固有の特性が存在する場合であっても、復号化信号が影響を受けている特性を打ち消すことができる符号化装
置、復号化装置及びこれらの方法を提供することである。

本発明の符号化装置は、入力信号をスケーラブル符号化する符号化装置であって、前記入力信号を符号化して第１符号化情報を生成する第１符号化手段と、前記第１符号化情報を復号化して第１復号化信号を生成する第１復号化手段と、前記第１復号化信号と調整用のインパルス応答とを畳み込むことにより前記第１復号化信号の調整を行う調整手段と、調整後の第１復号化信号と同期するように前記入力信号を遅延させる遅延手段と、遅延処理後の入力信号と前記調整後の第１復号化信号との差分である残差信号を求める加算手段と、前記残差信号を符号化して第２符号化情報を生成する第２符号化手段と、を具備する構成を採る。

本発明の符号化装置は、入力信号をスケーラブル符号化する符号化装置であって、前記入力信号に対してダウンサンプリングすることによりサンプリング周波数変換を行う周波数変換手段と、ダウンサンプリング後の入力信号を符号化して第１の符号化情報を生成する第１符号化手段と、前記第１符号化情報を復号化して第１復号化信号を生成する第１復号化手段と、前記第１復号化信号に対してアップサンプリングすることによりサンプリング周波数変換を行う周波数変換手段と、アップサンプリング後の第１復号化信号と調整用のインパルス応答とを畳み込むことにより前記アップサンプリング後の第１復号化信号の調整を行う調整手段と、調整後の第１復号化信号と同期するように前記入力信号を遅延させる遅延手段と、遅延処理後の入力信号と前記調整後の第１復号化信号との差分である残差信号を求める加算手段と、前記残差信号を符号化して第２符号化情報を生成する第２符号化手段と、を具備する構成を採る。

本発明の復号化装置は、上記の符号化装置が出力する符号化情報を復号化する復号化装置であって、前記第１符号化情報を復号化して第１復号化信号を生成する第１復号化手段と、前記第２符号化情報を復号化して第２復号化信号を生成する第２復号化手段と、前記第１復号化信号と調整用のインパルス応答とを畳み込むことにより前記第１復号化信号の調整を行う調整手段と、調整後の第１復号化信号と前記第２復号化信号とを加算する加算手段と、前記第１復号化手段が生成した第１復号化信号あるいは前記加算手段の加算結果のいずれかを選択して出力する信号選択手段と、を具備する構成を採る。

本発明の復号化装置は、上記の符号化装置が出力する符号化情報を復号化する復号化装置であって、前記第１符号化情報を復号化して第１復号化信号を生成する第１復号化手段と、前記第２符号化情報を復号化して第２復号化信号を生成する第２復号化手段と、前記第１復号化信号に対してアップサンプリングすることによりサンプリング周波数変換を行う周波数変換手段と、アップサンプリング後の第１復号化信号と調整用のインパルス応答とを畳み込むことにより前記アップサンプリング後の第１復号化信号の調整を行う調整手段と、調整後の第１復号化信号と前記第２復号化信号とを加算する加算手段と、前記第１復号化手段が生成した第１復号化信号あるいは前記加算手段の加算結果のいずれかを選択して出力する信号選択手段と、を具備する構成を採る。

本発明の符号化方法は、入力信号をスケーラブル符号化する符号化方法であって、前記入力信号を符号化して第１符号化情報を生成する第１符号化工程と、前記第１符号化情報を復号化して第１復号化信号を生成する第１復号化工程と、前記第１復号化信号と調整用のインパルス応答とを畳み込むことにより前記第１復号化信号の調整を行う調整工程と、調整後の第１復号化信号と同期するように前記入力信号を遅延させる遅延工程と、遅延処理後の入力信号と前記調整後の第１復号化信号との差分である残差信号を求める加算工程と、前記残差信号を符号化して第２符号化情報を生成する第２符号化工程と、を具備する方法を採る。

本発明の復号化方法は、上記の符号化方法によって符号化された符号化情報を復号化する復号化方法であって、前記第１符号化情報を復号化して第１復号化信号を生成する第１復号化工程と、前記第２符号化情報を復号化して第２復号化信号を生成する第２復号化工程と、前記第１復号化信号と調整用のインパルス応答とを畳み込むことにより前記第１復号化信号の調整を行う調整工程と、調整後の第１復号化信号と前記第２復号化信号とを加算する加算工程と、前記第１復号化工程で生成した第１復号化信号あるいは前記加算工程の加算結果のいずれかを選択して出力する信号選択工程と、を具備する方法を採る。

本発明によれば、出力される復号化信号の調整を行うことにより、符号化装置に固有の特性を打ち消すことができ、復号化信号の品質向上を図ることができ、上位のレイヤの符号化効率を向上させることができる。

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお、以下の実施の形態では、２階層で構成された階層的な信号符号化／復号化方法によりＣＥＬＰタイプの音声符号化／復号化を行う場合について説明する。なお、階層的な信号符号化方法とは、下位レイヤでの入力信号と出力信号との差分信号を符号化し、符号化情報を出力する信号符号化方法が、上位レイヤに複数存在して階層構造を成している方法である。

（実施の形態１）
図１は、本発明の実施の形態１に係る符号化装置１００および復号化装置１５０の主要な構成を示すブロック図である。符号化装置１００は、周波数変換部１０１、１０４と、第１符号化部１０２と、第１復号化部１０３と、調整部１０５と、遅延部１０６と、加算器１０７と、第２符号化部１０８と、多重化部１０９と、から主に構成される。また、復号化装置１５０は、多重化分離部１５１と、第１復号化部１５２と、第２復号化部１５３と、周波数変換部１５４と、調整部１５５と、加算器１５６と、信号選択部１５７と、から主に構成される。符号化装置１００から出力される符号化情報は、伝送路Ｍを介して、復号化装置１５０へ伝送される。

以下、図１に示された符号化装置１００の各構成部の処理内容について説明する。周波数変換部１０１及び遅延部１０６には、音声・楽音信号である信号が入力される。周波数変換部１０１は、入力信号のサンプリング周波数変換を行い、ダウンサンプリング後の入力信号を第１符号化部１０２へ出力する。

第１符号化部１０２は、ＣＥＬＰ方式の音声・楽音符号化方法を用いて、ダウンサンプ
リング後の入力信号を符号化し、符号化によって生成された第１符号化情報を第１復号化部１０３及び多重化部１０９へ出力する。

第１復号化部１０３は、ＣＥＬＰ方式の音声・楽音復号化方法を用いて、第１符号化部１０２から出力された第１符号化情報を復号化し、復号化によって生成された第１復号化信号を周波数変換部１０４へ出力する。周波数変換部１０４は、第１復号化部１０３から出力された第１復号化信号のサンプリング周波数変換を行い、アップサンプリング後の第１復号化信号を調整部１０５へ出力する。

調整部１０５は、アップサンプリング後の第１復号化信号と調整用のインパルス応答とを畳み込むことによりアップサンプリング後の第１復号化信号を調整し、調整後の第１復号化信号を加算器１０７へ出力する。このように、調整部１０５において、アップサンプリング後の第１復号化信号を調整することにより、符号化装置に固有の特性を吸収することができる。なお、調整部１０５の内部構成及び畳み込み処理の詳細は後述する。

遅延部１０６は、入力された音声・楽音信号を一時的にバッファへ格納し、調整部１０５から出力された第１復号化信号と時間的な同期が取れるようにバッファから音声・楽音信号を取り出して加算器１０７へ出力する。加算器１０７は、遅延部１０６から出力された入力信号に、調整部１０５から出力された第１復号化信号を極性反転してから加算し、加算結果である残差信号を第２符号化部１０８へ出力する。

第２符号化部１０８は、ＣＥＬＰ方式の音声・楽音符号化方法を用いて、加算器１０７から出力された残差信号を符号化し、符号化によって生成された第２符号化情報を多重化部１０９へ出力する。

多重化部１０９は、第１符号化部１０２から出力された第１符号化情報と第２符号化部１０８から出力された第２符号化情報とを多重化して多重化情報として伝送路Ｍへ出力する。

次に、図１に示された復号化装置１５０の各構成部の処理内容について説明する。多重化分離部１５１は、符号化装置１００から伝送された多重化情報を、第１符号化情報と第２符号化情報とに分離し、第１符号化情報を第１復号化部１５２へ出力し、第２符号化情報を第２復号化部１５３へ出力する。

第１復号化部１５２は、多重化分離部１５１から第１符号化情報を入力し、ＣＥＬＰ方式の音声・楽音復号化方法を用いて第１符号化情報を復号化し、復号化により求められる第１復号化信号を周波数変換部１５４及び信号選択部１５７へ出力する。

第２復号化部１５３は、多重化分離部１５１から第２符号化情報を入力し、ＣＥＬＰ方式の音声・楽音復号化方法を用いて第２符号化情報を復号化し、復号化により求められる第２復号化信号を加算器１５６へ出力する。

周波数変換部１５４は、第１復号化部１５２から出力された第１復号化信号のサンプリング周波数変換を行い、アップサンプリング後の第１復号化信号を調整部１５５へ出力する。

調整部１５５は、調整部１０５と同様の方法を用いて、周波数変換部１５４から出力された第１復号化信号の調整を行い、調整後の第１復号化信号を加算器１５６へ出力する。

加算器１５６は、第２復号化部１５３から出力された第２復号化信号と調整部１５５か
ら出力された第１復号化信号とを加算し、加算結果である第２復号化信号を求める。

信号選択部１５７は、制御信号に基づいて、第１復号化部１５２から出力された第１復号化信号あるいは加算器１５６から出力された第２復号化信号のいずれか一方を後工程に出力する。

次に、周波数変換部１０１が、サンプリング周波数が１６ｋＨｚの入力信号を８ｋＨｚへダウンサンプリングする場合を例に、符号化装置１００および復号化装置１５０における周波数変換処理について詳細に説明する。

この場合、周波数変換部１０１は、まず、入力信号を低域通過フィルタへ入力し、入力信号の周波数成分が０〜４ｋＨｚとなるように高域の周波数成分（４〜８ｋＨｚ）をカットする。そして、周波数変換部１０１は、低域通過フィルタ通過後の入力信号のサンプルを、一つ置きに取り出し、取り出したサンプルの系列をダウンサンプリング後の入力信号とする。

周波数変換部１０４、１５４は、第１復号化信号のサンプリング周波数を８ｋＨｚから１６ｋＨｚへアップサンプリングする。具体的には、周波数変換部１０４、１５４は、８ｋＨｚの第１復号化信号のサンプルとサンプルとの間に、「０」の値を持つサンプルを挿入し、第１復号化信号のサンプルの系列を二倍の長さに伸長する。次に、周波数変換部１０４、１５４は、伸長後の第１復号化信号を低域通過フィルタへ入力し、第１復号化信号の周波数成分が０〜４ｋＨｚとなるように高域の周波数成分（４〜８ｋＨｚ）をカットする。次に、周波数変換部１０４、１５４は、低域通過フィルタ通過後の第１復号化信号のパワーの補償を行い、補償後の第１復号化信号をアップサンプリング後の第１復号化信号とする。

パワーの補償は次の手順で行う。周波数変換部１０４、１５４は、パワー補償用の係数ｒを記憶している。係数ｒの初期値は「１」とする。また、係数ｒの初期値は、符号化装置によって適した値となるように変更しても良い。以下の処理は、フレーム毎に行われる。始めに、以下の式（１）により、伸長前の第１復号化信号のＲＭＳ（二乗平均平方根）と低域通過フィルタ通過後の第１復号化信号のＲＭＳ´とを求める。

ここで、ｙｓ（ｉ）は伸長前の第１復号化信号であり、ｉは０〜Ｎ／２−１の値をとる。また、ｙｓ´（ｉ）は低域通過フィルタ通過後の第１復号化信号であり、ｉは０〜Ｎ−１の値をとる。また、Ｎはフレームの長さに相当する。次に、各ｉ（０〜Ｎ−１）について、以下の式（２）により、係数ｒのアップデートと、第１復号化信号のパワー補償と、を行う。

式（２）の上式は、係数ｒをアップデートする式であり、係数ｒの値は、現フレームでのパワー補償が行われた後、次フレームでの処理に引き継がれる。式（２）の下式は、係数ｒを用いてパワー補償を行う式である。式（２）により求められるｙｓ´´（ｉ）がアップサンプリング後の第１復号化信号である。式（２）の０．９９、０．０１という値は、符号化装置によって適した値となるように変更しても良い。また、式（２）において、ＲＭＳ´の値が「０」である場合、（ＲＭＳ／ＲＭＳ´）の値を求めることができるように処理を行う。例えば、ＲＭＳ´の値が「０」である場合、ＲＭＳ´にＲＭＳの値を代入し、（ＲＭＳ／ＲＭＳ´）の値が「１」となるようにする。

次に、第１符号化部１０２および第２符号化部１０８の内部構成について図２のブロック図を用いて説明する。なお、これらの符号化部の内部構成は同一であるが、符号化の対象とする音声・楽音信号のサンプリング周波数が異なる。また、第１符号化部１０２および第２符号化部１０８は、入力される音声・楽音信号をＮサンプルずつ区切り（Ｎは自然数）、Ｎサンプルを１フレームとしてフレーム毎に符号化を行う。このＮの値は、第１符号化部１０２と第２符号化部１０８とで異なる場合がある。

入力信号、残差信号のいずれかの音声・楽音信号は、前処理部２０１に入力される。前処理部２０１は、ＤＣ成分を取り除くハイパスフィルタ処理や後続する符号化処理の性能改善につながるような波形整形処理やプリエンファシス処理を行い、これらの処理後の信号（Xin）をＬＳＰ分析部２０２および加算器２０５へ出力する。

ＬＳＰ分析部２０２は、Xinを用いて線形予測分析を行い、分析結果であるＬＰＣ（線形予測係数）をＬＳＰ（Line Spectral Pairs）に変換し、ＬＳＰ量子化部２０３へ出力する。

ＬＳＰ量子化部２０３は、ＬＳＰ分析部２０２から出力されたＬＳＰの量子化処理を行い、量子化された量子化ＬＳＰを合成フィルタ２０４へ出力する。また、ＬＳＰ量子化部２０３は、量子化ＬＳＰを表す量子化ＬＳＰ符号（Ｌ）を多重化部２１４へ出力する。

合成フィルタ２０４は、量子化ＬＳＰに基づくフィルタ係数により、後述する加算器２１１から出力される駆動音源に対してフィルタ合成を行うことにより合成信号を生成し、合成信号を加算器２０５へ出力する。

加算器２０５は、合成信号の極性を反転させてXinに加算することにより誤差信号を算出し、誤差信号を聴覚重み付け部２１２へ出力する。

適応音源符号帳２０６は、過去に加算器２１１によって出力された駆動音源をバッファに記憶しており、パラメータ決定部２１３から出力される信号によって特定される切り出し位置から１フレーム分のサンプルをバッファより切り出し、適応音源ベクトルとして乗算器２０９へ出力する。また、適応音源符号帳２０６は、加算器２１１から駆動音源を入力する毎にバッファのアップデートを行う。

量子化利得生成部２０７は、パラメータ決定部２１３から出力される信号によって、量子化適応音源利得と量子化固定音源利得とを決定し、これらをそれぞれ乗算器２０９及び
乗算器２１０へ出力する。

固定音源符号帳２０８は、パラメータ決定部２１３から出力された信号によって特定される形状を有するベクトルを固定音源ベクトルとして乗算器２１０へ出力する。

乗算器２０９は、量子化利得生成部２０７から出力された量子化適応音源利得を、適応音源符号帳２０６から出力された適応音源ベクトルに乗じて、加算器２１１へ出力する。乗算器２１０は、量子化利得生成部２０７から出力された量子化固定音源利得を、固定音源符号帳２０８から出力された固定音源ベクトルに乗じて、加算器２１１へ出力する。

加算器２１１は、利得乗算後の適応音源ベクトルと固定音源ベクトルとをそれぞれ乗算器２０９と乗算器２１０から入力し、利得乗算後の適応音源ベクトルと固定音源ベクトルとを加算し、加算結果である駆動音源を合成フィルタ２０４および適応音源符号帳２０６へ出力する。なお、適応音源符号帳２０６に入力された駆動音源は、バッファに記憶される。

聴覚重み付け部２１２は、加算器２０５から出力された誤差信号に対して聴覚的な重み付けをおこない、符号化歪みとしてパラメータ決定部２１３へ出力する。

パラメータ決定部２１３は、聴覚重み付け部２１２から出力される符号化歪みを最小とする適応音源ラグを適応音源符号帳２０６から選択し、選択結果を示す適応音源ラグ符号（Ａ）を多重化部２１４に出力する。ここで、「適応音源ラグ」とは、適応音源ベクトルを切り出す切り出し位置であり、詳細な説明は後述する。また、パラメータ決定部２１３は、聴覚重み付け部２１２から出力される符号化歪みを最小とする固定音源ベクトルを固定音源符号帳２０８から選択し、選択結果を示す固定音源ベクトル符号（Ｆ）を多重化部２１４に出力する。また、パラメータ決定部２１３は、聴覚重み付け部２１２から出力される符号化歪みを最小とする量子化適応音源利得と量子化固定音源利得とを量子化利得生成部２０７から選択し、選択結果を示す量子化音源利得符号（Ｇ）を多重化部２１４に出力する。

多重化部２１４は、ＬＳＰ量子化部２０３から量子化ＬＳＰ符号（Ｌ）を入力し、パラメータ決定部２１３から適応音源ラグ符号（Ａ）、固定音源ベクトル符号（Ｆ）および量子化音源利得符号（Ｇ）を入力し、これらの情報を多重化して符号化情報として出力する。ここでは、第１符号化部１０２が出力する符号化情報を第１符号化情報、第２符号化部１０８が出力する符号化情報を第２符号化情報、とする。

次に、ＬＳＰ量子化部２０３が量子化ＬＳＰを決定する処理を、量子化ＬＳＰ符号（Ｌ）に割り当てるビット数を「８」とし、ＬＳＰをベクトル量子化する場合を例に挙げ、簡単に説明する。

ＬＳＰ量子化部２０３は、予め作成された２５６種類のＬＳＰコードベクトルlsp^(l)(i)が格納されたＬＳＰコードブックを備える。ここで、ｌはＬＳＰコードベクトルに付されたインデクスであり０〜２５５の値をとる。また、ＬＳＰコードベクトルlsp^(l)(i)はＮ次元のベクトルであり、ｉは０〜Ｎ−１の値をとる。ＬＳＰ量子化部２０３は、ＬＳＰ分析部２０２から出力されたＬＳＰα(i)を入力する。ここで、ＬＳＰα(i)はＮ次元のベクトルであり、ｉは０〜Ｎ−１の値をとる。

次に、ＬＳＰ量子化部２０３は、式（３）によりＬＳＰα(i)とＬＳＰコードベクトルlsp^(l)(i)との二乗誤差ｅｒを求める。

次に、ＬＳＰ量子化部２０３は、全てのｌについて二乗誤差ｅｒを求め、二乗誤差ｅｒが最小となるｌの値（ｌ_min）を決定する。次に、ＬＳＰ量子化部２０３は、ｌ_minを量子化ＬＳＰ符号（Ｌ）として多重化部２１４へ出力し、また、lsp^(lmin)(i)を量子化ＬＳＰとして合成フィルタ２０４へ出力する。

このように、ＬＳＰ量子化部２０３によって求められるlsp^(lmin)(i)が「量子化ＬＳＰ」である。

次に、パラメータ決定部２１３が適応音源ラグを決定する処理について図３を用いて説明する。

この図３において、バッファ３０１は適応音源符号帳２０６が備えるバッファであり、位置３０２は適応音源ベクトルの切り出し位置であり、ベクトル３０３は、切り出された適応音源ベクトルである。また、数値「４１」、「２９６」は、切り出し位置３０２を動かす範囲の下限と上限とに対応している。

切り出し位置３０２を動かす範囲は、適応音源ラグを表す符号（Ａ）に割り当てるビット数を「８」とする場合、「２５６」の長さの範囲（例えば、４１〜２９６）に設定することができる。また、切り出し位置３０２を動かす範囲は、任意に設定することができる。

パラメータ決定部２１３は、切り出し位置３０２を設定された範囲内で動かし、順次、適応音源符号帳２０６に切り出し位置３０２を指示する。次に、適応音源符号帳２０６は、パラメータ決定部２１３により指示された切り出し位置３０２を用いて、適応音源ベクトル３０３をフレームの長さだけ切り出し、切り出した適応音源ベクトルを乗算器２０９に出力する。次に、パラメータ決定部２１３は、全ての切り出し位置３０２で適応音源ベクトル３０３を切り出した場合について、聴覚重み付け部２１２から出力される符号化歪みを求め、符号化歪みが最小となる切り出し位置３０２を決定する。

このように、パラメータ決定部２１３によって求められるバッファの切り出し位置３０２が「適応音源ラグ」である。

次に、パラメータ決定部２１３が固定音源ベクトルを決定する処理について図４を用いて説明する。なお、ここでは、固定音源ベクトル符号（Ｆ）に割り当てるビット数を「１２」とする場合を例にとって説明する。

図４において、トラック４０１、トラック４０２、トラック４０３は、それぞれ単位パルス（振幅値が１）を１本生成する。また、乗算器４０４、乗算器４０５、乗算器４０６は、それぞれトラック４０１〜４０３で生成される単位パルスに極性を付する。加算器４０７は、生成された３本の単位パルスを加算する加算器であり、ベクトル４０８は、３本の単位パルスから構成される「固定音源ベクトル」である。

各トラックは単位パルスを生成できる位置が異なっており、図４においては、トラック
４０１は｛0,3,6,9,12,15,18,21｝の８箇所のうちのいずれかに、トラック４０２は｛1,4,7,10,13,16,19,22｝の８箇所のうちのいずれかに、トラック４０３は｛2,5,8,11,14,17,20,23｝の８箇所のうちのいずれかに、それぞれ単位パルスを１本ずつ立てる構成となっている。

次に、生成された単位パルスはそれぞれ乗算器４０４〜４０６により極性が付され、加算器４０７により３本の単位パルスが加算され、加算結果である固定音源ベクトル４０８が構成される。

この例では、各単位パルスに対して位置が８通り、極性が正負の２通りであるので、位置情報３ビット、極性情報１ビット、が各単位パルスを表現するのに用いられる。したがって、合計1２ビットの固定音源符号帳となる。パラメータ決定部２１３は、３本の単位パルスの生成位置と極性とを動かし、順次、生成位置と極性とを固定音源符号帳２０８に指示する。次に、固定音源符号帳２０８は、パラメータ決定部２１３により指示された生成位置と極性とを用いて固定音源ベクトル４０８を構成して、構成された固定音源ベクトル４０８を乗算器２１０に出力する。次に、パラメータ決定部２１３は、全ての生成位置と極性との組み合わせについて、聴覚重み付け部２１２から出力される符号化歪みを求め、符号化歪みが最小となる生成位置と極性との組み合わせを決定する。次に、パラメータ決定部２１３は、符号化歪みが最小となる生成位置と極性との組み合わせを表す固定音源ベクトル符号（Ｆ）を多重化部２１４に出力する。

次に、パラメータ決定部２１３が、量子化利得生成部２０７から生成される量子化適応音源利得と量子化固定音源利得とを決定する処理を、量子化音源利得符号（Ｇ）に割り当てるビット数を「８」とする場合を例に挙げ、簡単に説明する。量子化利得生成部２０７は、予め作成された２５６種類の音源利得コードベクトルgain^(k)(i)が格納された音源利得コードブックを備える。ここで、ｋは音源利得コードベクトルに付されたインデクスであり０〜２５５の値をとる。また、音源利得コードベクトルgain^(k)(i)は２次元のベクトルであり、ｉは０〜１の値をとる。パラメータ決定部２１３は、ｋの値を０から２５５まで、順次、量子化利得生成部２０７に指示する。量子化利得生成部２０７は、パラメータ決定部２１３により指示されたｋを用いて音源利得コードブックから音源利得コードベクトルgain^(k)(i)を選択し、gain^(k)(0)を量子化適応音源利得として乗算器２０９に出力し、また、gain^(k)(1)を量子化固定音源利得として乗算器２１０に出力する。

このように、量子化利得生成部２０７によって求められるgain^(k)(0)が「量子化適応音源利得」であり、gain^(k)(1)が「量子化固定音源利得」である。

パラメータ決定部２１３は、全てのｋについて、聴覚重み付け部２１２より出力される符号化歪みを求め、符号化歪みが最小となるｋの値（ｋ_min）を決定する。次に、パラメータ決定部２１３は、ｋ_minを量子化音源利得符号（Ｇ）として多重化手段２１４に出力する。

次に、第１復号化部１０３、第１復号化部１５２および第２復号化部１５３の内部構成について図５のブロック図を用いて説明する。なお、これらの復号化部の内部構成は同一である。

第１符号化情報、第２符号化情報のいずれかの符号化情報は、多重化分離部５０１に入力される。入力された符号化情報は、多重化分離部５０１によって個々の符号（Ｌ、Ａ、Ｇ、Ｆ）に分離される。分離された量子化ＬＳＰ符号（Ｌ）はＬＳＰ復号化部５０２に出力され、分離された適応音源ラグ符号（Ａ）は適応音源符号帳５０５に出力され、分離された量子化音源利得符号（Ｇ）は量子化利得生成部５０６に出力され、分離された固定音
源ベクトル符号（Ｆ）は固定音源符号帳５０７へ出力される。

ＬＳＰ復号化部５０２は、多重化分離部５０１から出力された量子化ＬＳＰ符号（Ｌ）から量子化ＬＳＰを復号化し、復号化した量子化ＬＳＰを合成フィルタ５０３へ出力する。

適応音源符号帳５０５は、多重化分離部５０１から出力された適応音源ラグ符号（Ａ）で指定される切り出し位置から１フレーム分のサンプルをバッファより切り出し、切り出したベクトルを適応音源ベクトルとして乗算器５０８へ出力する。また、適応音源符号帳５０５は、加算器５１０から駆動音源を入力する毎にバッファのアップデートを行う。

量子化利得生成部５０６は、多重化分離部５０１から出力された量子化音源利得符号（Ｇ）で指定される量子化適応音源利得と量子化固定音源利得とを復号化し、量子化適応音源利得を乗算器５０８へ出力し、量子化固定音源利得を乗算器５０９へ出力する。

固定音源符号帳５０７は、多重化分離部５０１から出力された固定音源ベクトル符号（Ｆ）で指定される固定音源ベクトルを生成し、乗算器５０９へ出力する。

乗算器５０８は、適応音源ベクトルに量子化適応音源利得を乗算して、加算器５１０へ出力する。乗算器５０９は、固定音源ベクトルに量子化固定音源利得を乗算して、加算器５１０へ出力する。

加算器５１０は、乗算器５０８、５０９から出力された利得乗算後の適応音源ベクトルと固定音源ベクトルとの加算を行い、駆動音源を生成し、駆動音源を合成フィルタ５０３及び適応音源符号帳５０５に出力する。なお、適応音源符号帳５０５に入力された駆動音源は、バッファに記憶される。

合成フィルタ５０３は、加算器５１０から出力された駆動音源と、ＬＳＰ復号化部５０２によって復号化されたフィルタ係数とを用いてフィルタ合成を行い、合成信号を後処理部５０４へ出力する。

後処理部５０４は、合成フィルタ５０３から出力された合成信号に対して、ホルマント強調やピッチ強調といったような音声の主観的な品質を改善する処理や、定常雑音の主観的品質を改善する処理などを施し、復号化信号として出力する。ここでは、第１復号化部１０３および第１復号化部１５２が出力する復号化信号を第１復号化信号、第２復号化信号１５３が出力する復号化信号を第２復号化信号とする。

次に、調整部１０５および調整部１５５の内部構成について図６のブロック図を用いて説明する。

格納部６０３は、後述する学習方法により前以て求められる調整用インパルス応答h(i)を格納している。

第１復号化信号は、記憶部６０１に入力される。以下、第１復号化信号をy(i)と表すこととする。第１復号化信号y(i)はＮ次元のベクトルであり、ｉはｎ〜ｎ＋Ｎ−１の値をとる。ここで、Ｎはフレームの長さに相当する。また、ｎは各フレームの先頭に位置するサンプルであり、ｎはＮの整数倍に相当する。

記憶部６０１は、過去に周波数変換部１０４、１５４から出力された第１復号化信号を記憶するバッファを備える。以下、記憶部６０１が備えるバッファをybuf(i)と表すこと
とする。バッファybuf(i)は長さがＮ＋Ｗ−１のバッファであり、ｉは０〜Ｎ＋Ｗ−２の値をとる。ここで、Ｗは畳み込み部６０２が畳み込みを行う際の窓の長さに相当する。記憶部６０１は、式（４）により、入力した第１復号化信号y(i)を用いてバッファの更新を行う。

式（４）の更新により、バッファybuf(0)からybuf(W-2)には、更新前のバッファの一部ybuf(N)からybuf(N+W-2)が格納され、バッファybuf(W-1)からybuf(N+W-2)には、入力の第１復号化信号y(n)〜y(n+N-1)が格納される。次に、記憶部６０１は、更新後のバッファybuf(i)を全て畳み込み部６０２へ出力する。

畳み込み部６０２は、記憶部６０１からバッファybuf(i)を入力し、格納部６０３から調整用インパルス応答h(i)を入力する。調整用インパルス応答h(i)はＷ次元のベクトルであり、ｉは０〜Ｗ−１の値をとる。次に、畳み込み部６０２は、式（５）の畳み込みにより、第１復号化信号の調整を行い、調整後の第１復号化信号を求める。

このように、調整後の第１復号化信号ya(n-D+i)は、バッファybuf(i)からybuf(i+W-１)と調整用インパルス応答h(0)〜h(W-1)とを畳み込むことによって求めることができる。調整用インパルス応答h(i)は、調整を行うことにより、調整後の第１復号化信号と入力信号との誤差が小さくなるように、学習されている。ここで、求められる調整後の第１復号化信号は、ya(n-D)からya(n-D+N-1)であり、記憶部６０１に入力される第１復号化信号y(n)〜y(n+N-1)に比べ、時間（サンプル数）にしてＤの遅延が生じていることとなる。次に、畳み込み部６０２は、求めた第１復号化信号を出力する。

次に、調整用インパルス応答h(i)を前以て学習により求める方法を、説明する。始めに、学習用の音声・楽音信号を用意し、これを符号化装置１００へ入力する。ここで、学習用の音声・楽音信号をx(i)とする。次に、学習用の音声・楽音信号の符号化／復号化を行い、周波数変換部１０４から出力される第１復号化信号y(i)をフレーム毎に調整部１０５へ入力する。次に、記憶部６０１において、式（４）によるバッファの更新をフレーム毎に行う。バッファに格納された第１復号化信号と未知の調整用インパルス応答h(i)とを畳み込んだ信号と、学習用の音声・楽音信号x(i)とのフレーム単位での二乗誤差E(n)は式（６）のようになる。

ここで、Ｎはフレームの長さに相当する。また、ｎは各フレームの先頭に位置するサン
プルであり、ｎはＮの整数倍になる。また、Ｗは畳み込みを行う際の窓の長さに相当する。

フレームの総数がＲである場合、フレーム毎の二乗誤差Ｅ（ｎ）の総和Ｅａは、式（７）のようになる。

ここで、バッファybuf_k(i)は、フレームｋでのバッファybuf(i)である。バッファybuf(i)は、フレーム毎に更新されるので、フレーム毎にバッファの内容は異なる。また、x(-D)〜x(-1)の値は全て「０」とする。また、バッファybuf(0)からybuf(n+W-2)の初期値は全て「０」とする。

調整用インパルス応答h(i)を求めるには、式（７）の二乗誤差の総和Ｅａが最小となるh(i)を求める。即ち、式（７）の全てのh(J)について、δEa/δh(j)を満たすh(j)を求める。式（８）は、δEa/δh(j)＝０から導出される連立方程式である。式（８）の連立方程式を満たすh(j)を求めることにより、学習された調整用インパルス応答h(i)を求めることができる。

次に、式（９）によりＷ次元のベクトルＶと、Ｗ次元のベクトルＨを定義する。

また、式（１０）によりＷ×Ｗの行列Ｙを定義すると、式（８）は式（１１）のように表すことができる。

従って、調整用インパルス応答h(i)を求めるには、式（１２）によりベクトルＨを求める。

このように、学習用の音声・楽音信号を用いて学習を行うことにより、調整用インパルス応答h(i)を求めることができる。調整用インパルス応答h(i)は、第１復号化信号の調整を行うことにより、調整後の第１復号化信号と入力信号との二乗誤差が小さくなるように、学習されている。調整部１０５において、以上の方法により求めた調整用インパルス応答h(i)と周波数変換部１０４から出力される第１復号化信号とを畳み込むことにより、符号化装置１００に固有の特性を打ち消し、第１復号化信号と入力信号との二乗誤差をより小さくすることができる。

次に、遅延部１０６が、入力信号を遅延させて出力する処理を、説明する。遅延部１０６は、入力された音声・楽音信号をバッファへ格納する。次に、遅延部１０６は、調整部１０５から出力された第１復号化信号と時間的な同期が取れるようにバッファから音声・楽音信号を取り出し、これを入力信号として加算器１０７へ出力する。具体的には、入力された音声・楽音信号がx(n)〜x(n+N-１)である場合、時間（サンプル数）にしてＤの遅延が生じている信号をバッファから取り出し、取り出した信号x(n-D)〜x(n-D+N-１)を入力信号として加算器１０７へ出力する。

なお、本実施の形態では、符号化装置１００が２つの符号化部を有する場合を例にとって説明したが、符号化部の個数はこれに限定されず、３つ以上であっても良い。

また、本実施の形態では、復号化装置１５０が２つの復号化部を有する場合を例にとっ
て説明したが、復号化部の個数はこれに限定されず、３つ以上であっても良い。

また、本実施の形態では、固定音源符号帳２０８が生成する固定音源ベクトルが、パルスにより形成されている場合について説明したが、固定音源ベクトルを形成するパルスが拡散パルスである場合についても本発明は適用することができ、本実施の形態と同様の作用・効果を得ることができる。ここで、拡散パルスとは、単位パルスではなく、数サンプルに渡って特定の形状を有するパルス状の波形である。

また、本実施の形態では、符号化部／復号化部がＣＥＬＰタイプの音声・楽音符号化／復号化方法である場合について説明したが、符号化部／復号化部がＣＥＬＰタイプ以外の音声・楽音符号化／復号化方法（例えば、パルス符号変調、予測符号化、ベクトル量子化、ボコーダ）である場合についても本発明は適用することができ、本実施の形態と同様の作用・効果を得ることができる。また、音声・楽音符号化／復号化方法が、各々の符号化部／復号化部において異なる音声・楽音符号化／復号化方法である場合についても本発明は適用することができ、本実施の形態と同様の作用・効果を得ることができる。

（実施の形態２）
図７は、上記実施の形態１で説明した符号化装置を含む、本発明の実施の形態２に係る音声・楽音送信装置の構成を示すブロック図である。

音声・楽音信号７０１は、入力装置７０２によって電気的信号に変換され、Ａ／Ｄ変換装置７０３に出力される。Ａ／Ｄ変換装置７０３は、入力装置７０２から出力された（アナログ）信号をディジタル信号に変換し、音声・楽音符号化装置７０４へ出力する。音声・楽音符号化装置７０４は、図１に示した符号化装置１００を実装し、Ａ／Ｄ変換装置７０３から出力されたディジタル音声・楽音信号を符号化し、符号化情報をＲＦ変調装置７０５へ出力する。ＲＦ変調装置７０５は、音声・楽音符号化装置７０４から出力された符号化情報を電波等の伝播媒体に載せて送出するための信号に変換し送信アンテナ７０６へ出力する。送信アンテナ７０６はＲＦ変調装置７０５から出力された出力信号を電波（ＲＦ信号）として送出する。なお、図中のＲＦ信号７０７は送信アンテナ７０６から送出された電波（ＲＦ信号）を表す。

図８は、上記実施の形態１で説明した復号化装置を含む、本発明の実施の形態２に係る音声・楽音受信装置の構成を示すブロック図である。

ＲＦ信号８０１は、受信アンテナ８０２によって受信されＲＦ復調装置８０３に出力される。なお、図中のＲＦ信号８０１は、受信アンテナ８０２に受信された電波を表し、伝播路において信号の減衰や雑音の重畳がなければＲＦ信号７０７と全く同じものになる。

ＲＦ復調装置８０３は、受信アンテナ８０２から出力されたＲＦ信号から符号化情報を復調し、音声・楽音復号化装置８０４へ出力する。音声・楽音復号化装置８０４は、図１に示した復号化装置１５０を実装し、ＲＦ復調装置８０３から出力された符号化情報から音声・楽音信号を復号し、Ｄ／Ａ変換装置８０５へ出力する。Ｄ／Ａ変換装置８０５は、音声・楽音復号化装置８０４から出力されたディジタル音声・楽音信号をアナログの電気的信号に変換し出力装置８０６へ出力する。出力装置８０６は電気的信号を空気の振動に変換し音波として人間の耳に聴こえるように出力する。なお、図中、参照符号８０７は出力された音波を表す。

無線通信システムにおける基地局装置および通信端末装置に、上記のような音声・楽音信号送信装置および音声・楽音信号受信装置を備えることにより、高品質な出力信号を得ることができる。

このように、本実施の形態によれば、本発明に係る符号化装置および復号化装置を音声・楽音信号送信装置および音声・楽音信号受信装置に実装することができる。

本発明に係る符号化装置および復号化装置は、上記の実施の形態１、２に限定されず、種々変更して実施することが可能である。

本発明に係る符号化装置および復号化装置は、移動体通信システムにおける移動端末装置および基地局装置に搭載することも可能であり、これにより上記と同様の作用効果を有する移動端末装置および基地局装置を提供することができる。

なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。

本明細書は、２００５年５月１１日出願の特願２００５−１３８１５１に基づく。この内容はすべてここに含めておく。

本発明は、符号化装置に固有の特性が存在する場合であっても、品質の良い復号化音声信号を得る効果を有し、音声・楽音信号を符号化して伝送する通信システムの符号化装置および復号化装置に用いるに好適である。

本発明の実施の形態１に係る符号化装置および復号化装置の主要な構成を示すブロック図本発明の実施の形態１に係る第１符号化部、第２符号化部の内部構成を示すブロック図適応音源ラグを決定する処理について簡単に説明するための図固定音源ベクトルを決定する処理について簡単に説明するための図本発明の実施の形態１に係る第１復号化部、第２復号化部の内部構成を示すブロック図本発明の実施の形態１に係る調整部の内部構成を示すブロック図本発明の実施の形態２に係る音声・楽音送信装置の構成を示すブロック図本発明の実施の形態２に係る音声・楽音受信装置の構成を示すブロック図

Claims

入力信号をスケーラブル符号化する符号化装置であって、
前記入力信号に対してダウンサンプリングすることによりサンプリング周波数変換を行う周波数変換手段と、
ダウンサンプリング後の入力信号を符号化して第１の符号化情報を生成する第１符号化手段と、
前記第１符号化情報を復号化して第１復号化信号を生成する第１復号化手段と、
前記第１復号化信号に対してアップサンプリングすることによりサンプリング周波数変換を行う周波数変換手段と、
アップサンプリング後の第１復号化信号と調整用のインパルス応答とを畳み込むことにより前記アップサンプリング後の第１復号化信号の調整を行う調整手段と、
調整後の第１復号化信号と同期するように前記入力信号を遅延させる遅延手段と、
遅延処理後の入力信号と前記調整後の第１復号化信号との差分である残差信号を求める加算手段と、
前記残差信号を符号化して第２符号化情報を生成する第２符号化手段と、
を具備する符号化装置。
請求項１に記載の符号化装置が出力する符号化情報を復号化する復号化装置であって、
前記第１符号化情報を復号化して第１復号化信号を生成する第１復号化手段と、
前記第２符号化情報を復号化して第２復号化信号を生成する第２復号化手段と、
前記第１復号化信号に対してアップサンプリングすることによりサンプリング周波数変換を行う周波数変換手段と、
アップサンプリング後の第１復号化信号と調整用のインパルス応答とを畳み込むことにより前記アップサンプリング後の第１復号化信号の調整を行う調整手段と、
調整後の第１復号化信号と前記第２復号化信号とを加算する加算手段と、
前記第１復号化手段が生成した第１復号化信号あるいは前記加算手段の加算結果のいずれかを選択して出力する信号選択手段と、
を具備する復号化装置。
請求項１に記載の符号化装置を具備する基地局装置。
請求項２に記載の復号化装置を具備する基地局装置。
請求項１に記載の符号化装置を具備する通信端末装置。
請求項２に記載の復号化装置を具備する通信端末装置。
入力信号をスケーラブル符号化する符号化方法であって、
前記入力信号に対してダウンサンプリングすることによりサンプリング周波数変換を行う周波数変換工程と、
ダウンサンプリング後の入力信号を符号化して第１の符号化情報を生成する第１符号化工程と、
前記第１符号化情報を復号化して第１復号化信号を生成する第１復号化手段と、
前記第１復号化信号に対してアップサンプリングすることによりサンプリング周波数変換を行う周波数変換工程と、
アップサンプリング後の第１復号化信号と調整用のインパルス応答とを畳み込むことにより前記アップサンプリング後の第１復号化信号の調整を行う調整工程と、
調整後の第１復号化信号と同期するように前記入力信号を遅延させる遅延工程と、
遅延処理後の入力信号と前記調整後の第１復号化信号との差分である残差信号を求める加算工程と、
前記残差信号を符号化して第２符号化情報を生成する第２符号化工程と、
を具備する符号化方法。
請求項７に記載の符号化方法によって符号化された符号化情報を復号化する復号化方法であって、
前記第１符号化情報を復号化して第１復号化信号を生成する第１復号化工程と、
前記第２符号化情報を復号化して第２復号化信号を生成する第２復号化工程と、
前記第１復号化信号に対してアップサンプリングすることによりサンプリング周波数変換を行う周波数変換工程と、
アップサンプリング後の第１復号化信号と調整用のインパルス応答とを畳み込むことにより前記アップサンプリング後の第１復号化信号の調整を行う調整工程と、
調整後の第１復号化信号と前記第２復号化信号とを加算する加算工程と、
前記第１復号化工程で生成した第１復号化信号あるいは前記加算工程の加算結果のいずれかを選択して出力する信号選択工程と、
を具備する復号化方法。