JP4218271B2

JP4218271B2 - データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体

Info

Publication number: JP4218271B2
Application number: JP2002210899A
Authority: JP
Inventors: 哲二郎近藤; 勉渡辺
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2002-07-19
Filing date: 2002-07-19
Publication date: 2009-02-04
Anticipated expiration: 2022-07-19
Also published as: JP2004053891A

Description

【０００１】
【発明の属する技術分野】
本発明は、データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体に関し、特に、音質の良いオーディオデータを提供することができるようにするデータ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体に関する。
【０００２】
【従来の技術】
オーディオデータの符号化方法としては、知覚符号化技術または聴覚心理符号化技術により、データ量を削減するものが知られている。知覚符号化技術または聴覚心理符号化技術による符号化方法は、簡単には、人間が知覚することのできる音圧と時間との関係、または周波数と音量との関係を利用して、（ほとんど）知覚することができないオーディオデータは、符号化のためのビット割り当てを０としてマスクする、つまり符号化の対象としないもので、そのような符号化方法としては、例えば、MPEG(Moving Picture Experts Group)オーディオがある。
【０００３】
ここで、オーディオデータの符号化方法としてのMPEGオーディオ(MPEG Audio)には、MPEG1オーディオレイヤ１，２，３（MPEG1 Audio Layer1, Layer2, Layer3）や、MPEG2オーディオAAC(MPEG2 Audio Advansed Audio Coding)などがある。
【０００４】
なお、MPEGオーディオについては、例えば、「最新ＭＰＥＧ教科書」、株式会社アスキー発行などに、その詳細が記載されている。また、MPEG1オーディオレイヤ３については、例えば、特開2000-323993号公報、特開2001-102932号公報、特許2923406号公報などに、MPEG2オーディオAACについては、例えば、特開平11-259096号公報などにも記載されている。
【０００５】
図１は、MPEG1オーディオレイヤ１方式により、オーディオデータを符号化するエンコーダの構成例を示している。
【０００６】
エンコーダには、１６ビット直線量子化されたPCM(Pulse Code Modulation)信号としての時間領域のオーディオデータが入力される。エンコーダに入力されたオーディオデータは、サブバンド分割部１と聴覚心理分析部２に供給される。
【０００７】
サブバンド分割部１は、例えば、ポリフェーズフィルタバンクで構成され、そのポリフェーズフィルタバンクでオーディオデータをフィルタリングすることにより、オーディオデータをサブバンド符号化（サブバンド合成）する。即ち、サブバンド分割部１は、そこに供給されるオーディオデータの３８４サンプルを１フレームとしてサブバンド符号化することにより、その１フレームの時間領域のオーディオデータを、３２の同一周波数帯域幅のバンド（サブバンド）の周波数領域のオーディオデータとする。
【０００８】
ここで、サブバンド分割部１では、３８４サンプルのオーディオデータが、３２のサブバンドのオーディオデータとされるので、１サブバンドのサンプル数は、１２（＝３８４／３２）サンプルとなる。
【０００９】
なお、MPEG1オーディオレイヤ２方式でも、MPEG1オーディオレイヤ１方式と同様に、オーディオデータは、ポリフェーズフィルタバンクによるフィルタリングによってサブバンド符号化されることにより、３２のサブバンドのオーディオデータとされる。また、MPEG1オーディオレイヤ３方式では、オーディオデータに対しては、ポリフェーズフィルタバンクによるフィルタリングが行われる他、MDCT(Modified Discrete Cosine Transform)演算、および折り返し歪み削減バタフライ演算が施され、やはり、３２バンドの周波数領域のオーディオデータとされる。
【００１０】
サブバンド分割部１で得られた３２のサブバンドの周波数領域のオーディオデータ（以下、適宜、サブバンドデータという）は、聴覚心理分析部２と量子化／符号化部４に供給される。
【００１１】
聴覚心理分析部２は、聴覚心理モデル計算部１１とスケーリングファクタ計算部１２などで構成され、信号対マスク比(Signal to Mask Ratio)やスケーリングファクタなどを求める。
【００１２】
即ち、聴覚心理モデル計算部１１は、所定の聴覚心理モデルを用い、オーディオデータをＦＦＴ(Fast Fourier Transform)分析したり、各サブバンドの音圧を計算することなどによって、各サブバンドについて、そのサブバンドにおけるオーディオデータの最大振幅レベルと、人間の聴覚または知覚特性に基づいてマスキングされる最大振幅レベル（マスキング閾値）との比である信号対マスク比を計算し、ビット割り当て部３に供給する。また、スケーリングファクタ計算部１２は、各サブバンドのサブバンドデータなどに基づき、各サブバンドのスケーリングファクタを計算し、ビット割り当て部３に供給する。
【００１３】
ビット割り当て部３は、聴覚心理分析部２（の聴覚心理モデル計算部１１）から供給される信号対マスク比などに基づいて、サブバンド分割部１が出力する各サブバンドのサブバンドデータに対するビット割り当てを決定し、そのビット割り当てを表す情報（ビット割り当て情報）を、量子化／符号化部４とビットストリーム生成部５に供給する。さらに、ビット割り当て部３は、聴覚心理分析部２（のスケーリングファクタ計算部１２）から供給されるスケーリングファクタを、量子化／符号化部４とビットストリーム生成部５に供給する。
【００１４】
量子化／符号化部４は、サブバンド分割部１から供給される各サブバンドのサブバンドデータを、ビット割り当て部３から供給されるスケーリングファクタで正規化する。さらに、量子化／符号化部４は、その正規化後の各サブバンドのサブバンドデータを、ビット割り当て部３から供給されるビット割り当て情報に対応する量子化ステップで量子化し、ビットストリーム生成部５に供給する。
【００１５】
ここで、MPEG1オーディオレイヤ２方式でも、MPEG1オーディオレイヤ１方式と同様に、量子化／符号化部４において、各サブバンドのサブバンドデータが量子化される。また、MPEG1オーディオレイヤ３方式では、量子化／符号化部４において、各サブバンドのサブバンドデータが量子化された後、ハフマン符号化される。
【００１６】
ビットストリーム生成部５は、量子化／符号化部４から供給される、量子化されたサブバンドデータ（以下、適宜、量子化サブバンドデータという）、並びにビット割り当て部３から供給されるビット割り当て情報およびスケールファクタを多重化し、さらに、ヘッダを付加することにより、オーディオデータを符号化した符号化ビットストリームを生成して出力する。
【００１７】
次に、図２は、オーディオデータをMPEG1オーディオレイヤ１方式で符号化した符号化ビットストリーム、即ち、図１のエンコーダが出力する符号化ビットストリームを復号するデコーダの構成例を示している。
【００１８】
符号化ビットストリームは、ビットストリーム分解部２１に供給される。ビットストリーム分解部２１は、符号化ビットストリームを、ヘッダ、量子化サブバンドデータ、ビット割り当て情報、およびスケールファクタに分解し、再構成部２２に供給する。
【００１９】
再構成部２２は、ビット割り当て復号部３１および復号／逆量子化部３２で構成され、ビットストリーム分解部２１の出力から、各サブバンドのサブバンドデータを再構成（復号）する。
【００２０】
即ち、ビット割り当て復号部３１は、ビットストリーム分解部２１から、ビット割り当て情報とスケールファクタを受信し、ビット割り当て情報が表す量子化ステップとスケールファクタを、復号／逆量子化部３２に供給する。復号／逆量子化部３２は、ビットストリーム分解部２１から、各サブバンドの量子化サブバンドデータを受信し、その量子化サブバンドデータを、ビット割り当て部３１から供給される量子化ステップで逆量子化する。さらに、復号／逆量子化部３２は、量子化サブバンドデータの逆量子化結果に、スケールファクタを乗算すること等により、３２のサブバンドのサブバンドデータを復号し、サブバンド合成部２３に供給する。
【００２１】
サブバンド合成部２３は、再構成部２２（の復号／逆量子化部３２）から供給される３２のサブバンドのサブバンドデータを合成し、これにより、１フレームの時間領域のオーディオデータを復号して出力する。
【００２２】
次に、図３は、MPEG2オーディオAAC方式により、オーディオデータを符号化するエンコーダの構成例を示している。
【００２３】
オーディオデータは、聴覚心理分析部４１とフィルタバンク４２に供給される。
【００２４】
聴覚心理分析部４１は、そこに供給されるオーディオデータをＦＦＴすることにより、パワースペクトルを求め、そのパワースペクトルに基づき、複数のバンド（周波数帯域）それぞれごとに許容される量子化雑音を求める。さらに、聴覚心理分析部４１は、その量子化雑音に基づいて、人間の聴覚または知覚特性によって雑音がマスキングされるように量子化を行うために１フレームのオーディオデータに割り当てるべき割り当てビット数を表すビット割り当て情報を求め、フィルタバンク４２に供給する。
【００２５】
フィルタバンク４２は、MDCTを行うための複数のフィルタで構成され、聴覚心理分析部４１から供給されるビット割り当て情報に基づいて、１フレームのオーディオデータをMDCT処理する際のブロック長を決定し、そのブロック長ごとに、オーディオデータをフィルタリングすることで、そのオーディオデータをMDCT処理（適応ブロック長MDCT処理）する。フィルタバンク４２においてオーディオデータをMDCT処理することにより得られる、複数の周波数帯域それぞれごとのオーディオデータとしてのMDCT係数（周波数領域のオーディオデータ）は、演算部４３に供給される。
【００２６】
演算部４３は、予測部５０より供給されるMDCT係数の予測値について、フィルタバンク４２から供給されるMDCT係数の真値から、MDCT係数の予測値を減算した予測誤差を求め、そのMDCT係数の予測誤差を、量子化部４４に供給する。量子化部４４は、演算部４３からのMDCT係数の予測誤差を量子化し、その結果得られる量子化予測誤差を、符号化部４５と逆量子化部４７に供給する。
【００２７】
符号化部４５は、量子化部４４からの量子化予測誤差をハフマン符号化し、その結果得られるハフマン符号化データを、ビットストリーム生成部４６に供給する。ビットストリーム生成部４６は、符号化部４５から供給されるハフマン符号化データに、ヘッダその他の情報を多重化し、これにより、オーディオデータを符号化した符号化ビットストリームを生成して出力する。
【００２８】
一方、逆量子化部４７は、量子化部４４の出力を逆量子化することにより、MDCT係数の予測誤差を求め、演算部４８に供給する。演算部４８は、逆量子化部４７から供給されるMDCT係数の予測誤差と、予測部５０が出力するMDCT係数の予測値とを加算することにより、MDCT係数をローカルデコードし、遅延部４９に供給する。遅延部４９は、演算部４８から供給されるMDCT係数を所定の時間だけ遅延し、予測部５０に供給する。
【００２９】
予測部５０は、遅延部４９から供給されるMDCT係数を用いて線形予測を行うことにより、フィルタバンク４２が出力するMDCT係数の予測値を求め、演算部４３に供給する。
【００３０】
演算部４３では、このようにして予測部５０から供給されるMDCT係数の予測値について、上述したように予測誤差が求められる。
【００３１】
次に、図４は、オーディオデータをMPEG2オーディオAAC方式で符号化した符号化ビットストリーム、即ち、図３のエンコーダが出力する符号化ビットストリームを復号するデコーダの構成例を示している。
【００３２】
符号化ビットストリームは、ビットストリーム分解部６１に供給される。ビットストリーム分解部６１は、符号化ビットストリームを、ヘッダその他の情報と、ハフマン符号化データに分解し、復号部６２に供給する。
【００３３】
復号部６２は、ビットストリーム分解部６１から供給されるハフマン符号化データを量子化予測誤差に復号し、逆量子化部６３に供給する。逆量子化部６３は、復号部６２から供給される量子化予測誤差を逆量子化し、これにより、MDCT係数の予測誤差を得て、演算部６４に供給する。
【００３４】
演算部６４は、図３の演算部４８と同様に、逆量子化部６３から供給されるMDCT係数の予測誤差と、予測部６７が出力するMDCT係数の予測値とを加算することにより、MDCT係数を復号し、フィルタバンク６５と遅延部６６に供給する。
【００３５】
フィルタバンク６５は、逆MDCTを行うための複数のフィルタで構成され、演算部６４から供給されるMDCT係数を逆MDCT処理することにより、複数の周波数帯域それぞれごとのオーディオデータを合成した時間領域のオーディオデータを求めて出力する。
【００３６】
一方、遅延部６６は、図３の遅延部４９と同様に、演算部６４から供給されるMDCT係数を所定の時間だけ遅延し、予測部６７に供給する。
【００３７】
予測部６７は、図３の予測部５０と同様に、遅延部６６から供給されるMDCT係数を用いて線形予測を行うことにより、逆量子化部６３が予測誤差を出力するMDCT係数の予測値を求め、演算部６４に供給する。
【００３８】
演算部６４では、このようにして予測部６７から供給されるMDCT係数の予測値が、上述したように、逆量子化部６３から供給されるMDCT係数の予測誤差と加算されることにより、MDCT係数が復号される。
【００３９】
【発明が解決しようとする課題】
以上のように、知覚符号化技術または聴覚心理符号化技術により、データ量を削減するMPEGオーディオ方式などでは、信号対マスク比に基づくビット数や、人間の聴覚または知覚特性によって雑音がマスキングされるように量子化を行うために必要なビット数が、オーディオデータに割り当てられる。従って、周波数帯域によっては、サブバンドデータまたはMDCT係数としての周波数領域のオーディオデータに対するビット割り当てが０とされることがある。
【００４０】
このように、ビット割り当てが０とされた周波数帯域のオーディオデータは、図１または図３のエンコーダが出力する符号化ビットストリームに含まれないから、図２または図４のデコーダでは、その周波数帯域の周波数成分が存在しないオーディオデータが復号される。従って、復号されたオーディオデータの音質が、少なからず劣化する課題があった。
【００４１】
かかるオーディオデータの音質の劣化を低減（防止）する方法としては、各周波数帯域のオーディオデータに対して、必ず、１ビット以上を割り当てる方法があるが、この方法では、符号化ビットストリームのデータ量が増加することとなる。
【００４２】
本発明は、このような状況に鑑みてなされたものであり、符号化ビットストリームのデータ量を増加させずに、高音質のオーディオデータを復号することができるようにするものである。
【００４３】
【課題を解決するための手段】
本発明の第１のデータ処理装置は、第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップを、第１のデータから抽出するクラスタップ抽出手段と、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データをクラス分類するクラス分類手段と、注目データを求める積和演算に用いる、注目データに近接する複数のデータからなる予測タップを、第１のデータから抽出する予測タップ抽出手段と、学習の教師となる、第２のデータに対応する教師データと、学習の生徒となる、第１のデータに対応する生徒データを用い、注目している教師データの予測値を、その教師データに近接する複数の生徒データとタップ係数との積和演算により求め、注目している教師データと、求められた予測値との差分値である予測誤差を最小にする学習を、１以上のクラスごとに行うことにより求められたタップ係数から、注目データのクラスのタップ係数を取得する取得手段と、注目データのクラスのタップ係数と、予測タップとを用いた積和演算を行うことにより注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータである第１のデータを、第１のデータにおいてビット割り当てが０とされた第１のデータにおいて抜けている周波数帯域のオーディオデータである第２のデータに変換する予測演算手段とを備えることを特徴とする。
【００４４】
本発明の第１のデータ処理方法は、第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップを、第１のデータから抽出するクラスタップ抽出ステップと、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データをクラス分類するクラス分類ステップと、注目データを求める積和演算に用いる、注目データに近接する複数のデータからなる予測タップを、第１のデータから抽出する予測タップ抽出ステップと、学習の教師となる、第２のデータに対応する教師データと、学習の生徒となる、第１のデータに対応する生徒データを用い、注目している教師データの予測値を、その教師データに近接する複数の生徒データとタップ係数との積和演算により求め、注目している教師データと、求められた予測値との差分値である予測誤差を最小にする学習を、１以上のクラスごとに行うことにより求められたタップ係数から、注目データのクラスのタップ係数を取得する取得ステップと、注目データのクラスのタップ係数と、予測タップとを用いた積和演算を行うことにより注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータである第１のデータを、第１のデータにおいてビット割り当てが０とされた第１のデータにおいて抜けている周波数帯域のオーディオデータである第２のデータに変換する予測演算ステップとを備えることを特徴とする。
【００４５】
本発明の第１のプログラムは、第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップを、第１のデータから抽出するクラスタップ抽出ステップと、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データをクラス分類するクラス分類ステップと、注目データを求める積和演算に用いる、注目データに近接する複数のデータからなる予測タップを、第１のデータから抽出する予測タップ抽出ステップと、学習の教師となる、第２のデータに対応する教師データと、学習の生徒となる、第１のデータに対応する生徒データを用い、注目している教師データの予測値を、その教師データに近接する複数の生徒データとタップ係数との積和演算により求め、注目している教師データと、求められた予測値との差分値である予測誤差を最小にする学習を、１以上のクラスごとに行うことにより求められたタップ係数から、注目データのクラスのタップ係数を取得する取得ステップと、注目データのクラスのタップ係数と、予測タップとを用いた積和演算を行うことにより注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータである第１のデータを、第１のデータにおいてビット割り当てが０とされた第１のデータにおいて抜けている周波数帯域のオーディオデータである第２のデータに変換する予測演算ステップとを備えることを特徴とする。
【００４６】
本発明の第１の記録媒体は、第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップを、第１のデータから抽出するクラスタップ抽出ステップと、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データをクラス分類するクラス分類ステップと、注目データを求める積和演算に用いる、注目データに近接する複数のデータからなる予測タップを、第１のデータから抽出する予測タップ抽出ステップと、学習の教師となる、第２のデータに対応する教師データと、学習の生徒となる、第１のデータに対応する生徒データを用い、注目している教師データの予測値を、その教師データに近接する複数の生徒データとタップ係数との積和演算により求め、注目している教師データと、求められた予測値との差分値である予測誤差を最小にする学習を、１以上のクラスごとに行うことにより求められたタップ係数から、注目データのクラスのタップ係数を取得する取得ステップと、注目データのクラスのタップ係数と、予測タップとを用いた積和演算を行うことにより注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータである第１のデータを、第１のデータにおいてビット割り当てが０とされた第１のデータにおいて抜けている周波数帯域のオーディオデータである第２のデータに変換する予測演算ステップとを備えるプログラムが記録されていることを特徴とする。
【００４７】
本発明の第２のデータ処理装置は、第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップを、第１のデータから抽出するクラスタップ抽出手段と、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データをクラス分類するクラス分類手段と、タップ係数の学習の教師となる、第２のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、注目データに近接する複数のデータからなる予測タップを、学習の生徒となる、第１のデータに対応する生徒データから抽出する予測タップ抽出手段と、注目データと予測タップを用い、注目データの予測値を、その注目データに近接する複数の生徒データとタップ係数との積和演算により求め、注目データと、求められた予測値との差分値である予測誤差を最小にする学習を、１以上のクラスごとに行うことにより、タップ係数を求める学習手段とを備え、第１のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、学習手段は、第１のデータを、第１のデータにおいてビット割り当てが０とされた第１のデータにおいて抜けている周波数帯域のオーディオデータである第２のデータに変換するのに用いられるタップ係数を求めることを特徴とする。
【００４８】
本発明の第２のデータ処理方法は、時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第１のデータを、第１のデータよりも高品質のデータである第２のデータに変換するのに用いられるタップ係数を学習するデータ処理方法であって、第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップを、第１のデータから抽出するクラスタップ抽出ステップと、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データをクラス分類するクラス分類ステップと、タップ係数の学習の教師となる、第２のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、注目データに近接する複数のデータからなる予測タップを、学習の生徒となる、第１のデータに対応する生徒データから抽出する予測タップ抽出ステップと、注目データと予測タップを用い、注目データの予測値を、その注目データに近接する複数の生徒データとタップ係数との積和演算により求め、注目データと、求められた予測値との差分値である予測誤差を最小にする学習を、１以上のクラスごとに行うことにより、タップ係数を求める学習ステップとを備え、第１のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、学習ステップにおいて、第１のデータを、第１のデータにおいてビット割り当てが０とされた第１のデータにおいて抜けている周波数帯域のオーディオデータである第２のデータに変換するのに用いられるタップ係数が求められることを特徴とする。
【００４９】
本発明の第２のプログラムは、第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップを、第１のデータから抽出するクラスタップ抽出ステップと、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データをクラス分類するクラス分類ステップと、タップ係数の学習の教師となる、第２のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、注目データに近接する複数のデータからなる予測タップを、学習の生徒となる、第１のデータに対応する生徒データから抽出する予測タップ抽出ステップと、注目データと予測タップを用い、注目データの予測値を、その注目データに近接する複数の生徒データとタップ係数との積和演算により求め、注目データと、求められた予測値との差分値である予測誤差を最小にする学習を、１以上のクラスごとに行うことにより、タップ係数を求める学習ステップとを備え、第１のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、学習ステップにおいて、第１のデータを、第１のデータにおいてビット割り当てが０とされた第１のデータにおいて抜けている周波数帯域のオーディオデータである第２のデータに変換するのに用いられるタップ係数が求められることを特徴とする。
【００５０】
本発明の第２の記録媒体は、第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップを、第１のデータから抽出するクラスタップ抽出ステップと、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データをクラス分類するクラス分類ステップと、タップ係数の学習の教師となる、第２のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、注目データに近接する複数のデータからなる予測タップを、学習の生徒となる、第１のデータに対応する生徒データから抽出する予測タップ抽出ステップと、注目データと予測タップを用い、注目データの予測値を、その注目データに近接する複数の生徒データとタップ係数との積和演算により求め、注目データと、求められた予測値との差分値である予測誤差を最小にする学習を、１以上のクラスごとに行うことにより、タップ係数を求める学習ステップとを備え、第１のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、学習ステップにおいて、第１のデータを、第１のデータにおいてビット割り当てが０とされた第１のデータにおいて抜けている周波数帯域のオーディオデータである第２のデータに変換するのに用いられるタップ係数が求められるプログラムが記録されていることを特徴とする。
【００５１】
本発明の第１のデータ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体においては、第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップが、第１のデータから抽出され、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データがクラス分類され、注目データを求める積和演算に用いる、注目データに近接する複数のデータからなる予測タップが、第１のデータから抽出される。また、学習の教師となる、第２のデータに対応する教師データと、学習の生徒となる、第１のデータに対応する生徒データを用い、注目している教師データの予測値を、その教師データに近接する複数の生徒データとタップ係数との積和演算により求め、注目している教師データと、求められた予測値との差分値である予測誤差を最小にする学習を、１以上のクラスごとに行うことにより求められたタップ係数から、注目データのクラスのタップ係数が取得される。そして、その注目データのクラスのタップ係数と、予測タップとを用いた積和演算を行うことにより注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータである第１のデータが、第１のデータにおいてビット割り当てが０とされた第１のデータにおいて抜けている周波数帯域のオーディオデータである第２のデータに変換される。
【００５２】
本発明の第２のデータ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体においては、第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップが、第１のデータから抽出され、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データがクラス分類される。また、タップ係数の学習の教師となる、第２のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、注目データに近接する複数のデータからなる予測タップが、学習の生徒となる、第１のデータに対応する生徒データから抽出される。そして、注目データと予測タップを用い、注目データの予測値を、その注目データに近接する複数の生徒データとタップ係数との積和演算により求め、注目データと、求められた予測値との差分値である予測誤差を最小にする学習を、１以上のクラスごとに行うことにより、タップ係数が求められる。また、第１のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、学習において、第１のデータを、第１のデータにおいてビット割り当てが０とされた第１のデータにおいて抜けている周波数帯域のオーディオデータである第２のデータに変換するのに用いられるタップ係数が求められる。
【００５３】
【発明の実施の形態】
図５は、本発明を適用したデータ処理装置の一実施の形態の構成例を示している。
【００５４】
このデータ処理装置においては、ディジタルオーディオデータを符号化し、その結果得られる符号化ビットストリームが、ディジタルオーディオデータに復号されるようになっている。
【００５５】
即ち、符号化対象のオーディオデータは、符号化装置１０１に供給される。符号化装置１０１は、知覚符号化技術または聴覚心理符号化技術により、データ量を削減するもので、そこに供給されるオーディオデータを所定の符号化方式で符号化し、符号化ビットストリームを出力する。
【００５６】
ここで、符号化装置１０１における符号化方式としては、例えば、前述したMPEG1オーディオレイヤ１，２，３やMPEG2オーディオAACなどを採用することができる。なお、ここでは、符号化装置１０１の符号化方式として、例えば、MPEG1オーディオレイヤ１を採用することとする。従って、符号化装置１０１は、前述の図１のエンコーダと同様に構成される。
【００５７】
符号化装置１０１が出力する符号化ビットストリームは、例えば、地上波や、衛星回線、CATV(Cable Television)、インターネット、電話回線、その他の有線または無線の伝送媒体１０３を介して伝送され、あるいは、例えば、半導体メモリや、光磁気ディスク、磁気ディスク、相変化ディスクなどの記録媒体１０４に記録される。
【００５８】
復号装置１０２には、伝送媒体１０３を介して伝送されてくる符号化ビットストリーム、あるいは、記録媒体１０４から再生された符号化ビットストリームが供給される。
【００５９】
復号装置１０２は、そこに供給される符号化ビットストリームをオーディオデータに復号して出力する。
【００６０】
なお、符号化装置１０１と復号装置１０２は、別々の筐体でなる、独立した装置として構成することもできるし、１つの筐体でなる１つの装置として構成することも可能である。
【００６１】
次に、図６は、図５の復号装置１０２の第１の構成例を示している。
【００６２】
復号装置１０２に供給される符号化ビットストリームは、デコーダ１１１で受信される。
【００６３】
デコーダ１１１は、符号化装置１０１（図５）が出力する符号化ビットストリームを復号するデコーダと同様に構成されている。従って、本実施の形態では、符号化装置１０１は、MPEG1オーディオレイヤ１方式でオーディオデータを符号化した符号化ビットストリームを出力するので、デコーダ１１１は、例えば、図２のデコーダと同様に構成されている。但し、デコーダ１１１は、図２のサブバンド合成部２３で得られる、符号化ビットストリームをMPEG1オーディオレイヤ１で復号した時間領域のオーディオデータではなく、再構成部２２で得られる周波数領域のオーディオデータとしての各サブバンドごとのサブバンドデータを出力する。さらに、デコーダ１１１は、ビットストリーム分解部２１において、符号化ビットストリームから得られた、量子化サブバンドデータ以外のデータ、即ち、ヘッダや、スケーリングファクタ、ビット割り当て情報を、サイドインフォメーションとして出力する。
【００６４】
なお、デコーダ１１１は、フレームごとに、各サブバンドのサブバンドデータとサイドインフォメーションを出力するが、サブバンドデータは、クラス分類適応処理部１１３とサブバンド合成部１１４に供給され、サイドインフォメーションは、コントローラ１１２とクラス分類適応処理部１１３に供給される。
【００６５】
コントローラ１１２は、クラス分類適応処理部１１３において求めようとするサブバンドデータを注目データとして選択する。さらに、コントローラ１１２は、注目データのサブバンドを表すサブバンドナンバと、そのサブバンドにおける注目データのデータ位置などを、注目データを特定するための特定情報として、クラス分類適応処理部１１３およびサブバンド合成部１１４に供給する。また、コントローラ１１２は、デコーダ１１１から供給されるサイドインフォメーションに基づき、各フレームにおいてサブバンドデータが抜けているサブバンド、即ち、符号化装置１０１（図５）においてビット割り当てが０ビットとされたサブバンドがあるかどうかを判定し、さらに、ビット割り当てが０ビットとされたサブバンドがある場合には、そのサブバンドを表すサブバンドナンバを認識する。
【００６６】
ここで、本実施の形態では、符号化装置１０１（図５）において、オーディオデータは、図１で説明したように、３２のサブバンドのサブバンドデータに符号化される。いま、この３２のサブバンドを、低周波数帯域から、サブバンドsb0,sb1,・・・,sb31というように、sbに、０からのシーケンシャルな数字を付して表すこととすると、あるサブバンドsb#nのサブバンドナンバとは、例えば、sbに付されている数字#nを表す。また、１つのサブバンドには、図１で説明したように、１２のサブバンドデータが存在するが、そのサブバンドデータ（のサンプル）を、d0,d1,・・・,d12というように、dに、０からの数字を付して表すこととすると、あるサブバンドデータd#iのデータ位置とは、例えば、dに付されている数字#iを表す。
【００６７】
クラス分類適応処理部１１３は、デコーダ１１１から供給されるサブバンドデータ、およびコントローラ１１２から供給される特定情報としての注目データ（サブバンドデータ）のサブバンドナンバとデータ位置などを用いて、例えば、後述するクラス分類適応処理を行うことにより、注目データとしてのサブバンドデータを求め（予測し）、サブバンド合成部１１４に供給する。
【００６８】
サブバンド合成部１１４は、デコーダ１１１から供給されるサブバンドのサブバンドデータと、クラス分類適応処理部１１３から供給されるサブバンドのサブバンドデータとを、図２のサブバンド合成部２３における場合と同様にして合成し、これにより、時間領域のオーディオデータを求めて出力する。
【００６９】
次に、図６のクラス分類適応処理部１１３において行われるクラス分類適応処理について説明する。
【００７０】
クラス分類適応処理は、クラス分類処理と適応処理とからなり、クラス分類処理によって、データを、その性質に基づいてクラス分けし、各クラスごとに適応処理を施すものであり、適応処理とは、以下のような手法の処理である。
【００７１】
即ち、適応処理では、第１のデータが、所定のタップ係数を用いてマッピング（写像）されることにより、第２のデータに変換される。
【００７２】
いま、このタップ係数を用いてのマッピング方法として、例えば、線形１次結合モデルを採用するとともに、第１のデータとして、デコーダ１１１が出力するサブバンドデータ、即ち、オーディオデータをMPEG1オーディオレイヤ１方式により符号化し、さらに、MPEG1オーディオレイヤ１方式により復号することにより得られるサブバンドデータを用い、第２のデータとして、そのサブバンドデータの真値、即ち、符号化装置１０１でオーディオデータをサブバンド符号化することにより得られるサブバンドデータを用いることとして、適応処理について説明する。
【００７３】
なお、オーディオデータをMPEG1オーディオレイヤ１方式により符号化し、さらに、MPEG1オーディオレイヤ１方式により復号することにより得られるサブバンドデータから、時間領域のオーディオデータを求めた場合と、符号化装置１０１でオーディオデータをサブバンド符号化することにより得られるサブバンドデータから時間領域のオーディオデータを求めた場合とでは、量子化の有無によって、音質に差が生じる。即ち、前者では後者より低音質のオーディオデータが得られ、後者では前者より高音質のオーディオデータを得ることができる。そこで、以下、適宜、オーディオデータをMPEG1オーディオレイヤ１方式により符号化し、さらに、MPEG1オーディオレイヤ１方式により復号することにより得られるサブバンドデータを、低音質サブバンドデータというとともに、オーディオデータをサブバンド符号化することにより得られるサブバンドデータを、高音質サブバンドデータという。
【００７４】
上述の条件下において、高音質サブバンドデータｙは、例えば、低音質サブバンドデータから、高音質サブバンドデータを予測するための予測タップとして抽出される複数の低音質サブバンドデータと、タップ係数とを用いて、次の線形１次式（線形結合）によって求められる。
【００７５】
【数１】

【００７６】
但し、式（１）において、ｘ_nは、高音質サブバンドデータｙについての予測タップを構成する、ｎ番目の低音質サブバンドデータ（のサンプル値）を表し、ｗ_nは、ｎ番目の低音質サブバンドデータと乗算されるｎ番目のタップ係数を表す。なお、式（１）では、予測タップが、Ｎ個の低音質サブバンドデータｘ₁，ｘ₂，・・・，ｘ_Nで構成されるものとしてある。
【００７７】
ここで、高音質サブバンドデータｙは、式（１）に示した線形１次式ではなく、２次以上の高次の式によって求めるようにすることも可能である。
【００７８】
いま、第ｋサンプルの高音質サブバンドデータの真値をｙ_kと表すとともに、式（１）によって得られるその真値ｙ_kの予測値をｙ_k’と表すと、その予測誤差ｅ_kは、例えば、次式で表される。
【００７９】
【数２】

【００８０】
式（２）の予測値ｙ_k’は、式（１）にしたがって求められるため、式（２）のｙ_k’を、式（１）にしたがって置き換えると、次式が得られる。
【００８１】
【数３】

【００８２】
但し、式（３）において、ｘ_n,kは、第ｋサンプルの高音質サブバンドデータについての予測タップを構成するｎ番目の低音質サブバンドデータを表す。
【００８３】
式（３）の予測誤差ｅ_kを０とするタップ係数ｗ_nが、高音質サブバンドデータを予測するのに最適なものとなるが、すべての高音質サブバンドデータについて、そのようなタップ係数ｗ_nを求めることは、一般には困難である。
【００８４】
そこで、タップ係数ｗ_nが最適なものであることを表す規範として、例えば、最小自乗法を採用することとすると、最適なタップ係数ｗ_nは、統計的な誤差としての、例えば、次式で表される自乗誤差の総和Ｅを最小にすることで求めることができる。
【００８５】
【数４】

【００８６】
但し、式（４）において、Ｋは、高音質サブバンドデータｙ_kと、その高音質サブバンドデータｙ_kについての予測タップを構成する低音質サブバンドデータｘ_1,k，ｘ_2,k，・・・，ｘ_N,kとのセットのサンプル数を表す。
【００８７】
式（４）の自乗誤差の総和Ｅを最小（極小）にするタップ係数ｗ_nは、その総和Ｅをタップ係数ｗ_nで偏微分したものを０とするものであり、従って、次式を満たす必要がある。
【００８８】
【数５】

【００８９】
そこで、上述の式（３）をタップ係数ｗ_nで偏微分すると、次式が得られる。
【００９０】
【数６】

【００９１】
式（５）と（６）から、次式が得られる。
【００９２】
【数７】

【００９３】
式（７）のｅ_kに、式（３）を代入することにより、式（７）は、式（８）に示す正規方程式で表すことができる。
【００９４】
【数８】

【００９５】
式（８）の正規方程式は、高音質サブバンドデータｙ_kと低音質サブバンドデータｘ_n,kのセットを、ある程度の数だけ用意することで、求めるべきタップ係数ｗ_nの数と同じ数だけたてることができ、従って、式（８）を解くことで（但し、式（８）を解くには、式（８）において、タップ係数ｗ_nにかかる左辺の行列が正則である必要がある）、最適なタップ係数ｗ_nを求めることができる。なお、式（８）を解くにあたっては、例えば、掃き出し法（Gauss-Jordanの消去法）などを採用することが可能である。
【００９６】
以上のように、多数の高音質サブバンドデータｙ₁，ｙ₂，・・・，ｙ_Kを、タップ係数の学習の教師となる教師データとするとともに、各高音質サブバンドデータｙ_kについての予測タップを構成する低音質サブバンドデータｘ_1,k，ｘ_2,k，・・・，ｘ_N,kを、タップ係数の学習の生徒となる生徒データとして、式（８）を解くことにより、最適なタップ係数ｗ_nを求める学習を行っておき、さらに、そのタップ係数ｗ_nを用い、式（１）により、低音質サブバンドデータを、高音質サブバンドデータにマッピング（変換）するのが適応処理である。
【００９７】
なお、適応処理は、低音質サブバンドデータには含まれていないが、高音質サブバンドデータに含まれる成分が再現される点で、例えば、単なる補間処理等とは異なる。即ち、適応処理では、式（１）だけを見る限りは、いわゆる補間フィルタを用いての補間処理と同一であるが、その補間フィルタのタップ係数に相当するタップ係数ｗ_nが、教師データとしての高音質サブバンドデータと生徒データとしての低音質サブバンドデータとを用いての学習により求められるため、高音質サブバンドデータに含まれる成分を再現することができる。
【００９８】
ここで、タップ係数ｗ_nの学習では、教師データｙと生徒データｘとの組み合わせとして、どのようなものを採用するかによって、各種の変換を行うタップ係数ｗ_nを求めることができる。
【００９９】
即ち、例えば、上述のように、教師データｙとして、高音質サブバンドデータを採用するとともに、生徒データｘとして、低音質サブバンドデータを採用した場合には、低音質サブバンドデータを高音質サブバンドデータに変換するタップ係数ｗ_nを得ることができる。また、例えば、教師データｙとして、時間領域の高音質のオーディオデータを採用するとともに、生徒データｘとして、その高音質のオーディオデータを処理して得られる低音質サブバンドデータを採用した場合には、周波数領域のデータとしての低音質サブバンドデータを、時間領域のデータとしての高音質のオーディオデータに変換するタップ係数ｗ_nを得ることができる。さらに、例えば、教師データｙとして、時間領域の高音質のオーディオデータを採用するとともに、生徒データｘとして、その高音質のオーディオデータをMPEG2オーディオACC方式により符号化して復号することにより得られるMDCT係数を採用した場合には、周波数領域のデータとしてのMDCT係数を、時間領域のデータとしての高音質のオーディオデータに変換するタップ係数ｗ_nを得ることができる。
【０１００】
なお、上述の場合には、予測タップを、低音質サブバンドデータだけから構成することとしたが、予測タップは、低音質サブバンドデータ以外の情報、即ち、例えば、サイドインフォメーションなどを含めて構成することが可能である。
【０１０１】
図６のクラス分類適応処理部１１３は、タップ生成部１２１および１２２、クラス分類部１２３、タップ係数記憶部１２４、並びに予測演算部１２５で構成され、上述のようなクラス分類適応処理を行うことにより、高音質サブバンドデータを求めるようになっている。
【０１０２】
即ち、タップ生成部１２１は、コントローラ１１２から供給される特定情報としてのサブバンドナンバとデータ位置によって特定される高音質サブバンドデータを注目データとして選択し、その注目データ（の予測値）を求めるのに用いる予測タップを、デコーダ１１１から供給される、MPEG1オーディオレイヤ１方式により復号されたサブバンドデータ、即ち、低音質サブバンドデータ、さらには、やはり、デコーダ１１１から供給されるサイドインフォメーションから生成し、予測演算部１２５に供給する。
【０１０３】
具体的には、タップ生成部１２１は、例えば、注目データのフレームの低音質サブバンドデータとサイドインフォメーションの幾つかを抽出し、それらを所定の順番で並べたものを、予測タップとする。あるいは、また、タップ生成部１２１は、例えば、注目データのフレームの他、そのフレームに近接するフレームからも、低音質サブバンドデータとサイドインフォメーションの幾つかを抽出し、それらを所定の順番で並べたものを、予測タップとする。
【０１０４】
タップ生成部１２２は、タップ生成部１２１と同様に、コントローラ１１２から供給される特定情報から注目データを選択し、その注目データのクラス分類に用いるクラスタップを、デコーダ１１１から供給される低音質サブバンドデータとサイドインフォメーションから生成し、クラス分類部１２３に出力する。
【０１０５】
ここで、上述したように、予測タップやクラスタップは、デコーダ１１１から供給される低音質サブバンドデータの他、サイドインフォメーションをも用いて生成することが可能であるが、デコーダ１１１から供給される低音質サブバンドデータのみから生成することも可能である。
【０１０６】
そこで、以下では、説明を簡単にするために、予測タップとクラスタップは、デコーダ１１１から供給される低音質サブバンドデータのみから生成されるものとする。
【０１０７】
クラス分類部１２３は、タップ生成部１２２からのクラスタップ、さらには、例えば、コントローラ１１２から供給される特定情報としてのサブバンドナンバとデータ位置に基づいて、注目データをクラス分類し、その結果得られる注目データのクラスに対応するクラスコードを、タップ係数記憶部１２４に供給する。
【０１０８】
ここで、クラスタップによるクラス分類を行うにあたっては、そのクラスタップを構成する低音質サブバンドデータの各サンプル値を表すビット列をそのまま所定の順番で並べて得られるビット列を、クラスコードとすることが可能であるが、この場合、クラス数（クラスの総数）が膨大な数になることがある。そこで、クラス分類には、例えば、KビットADRC(Adaptive Dynamic Range Coding)処理などの圧縮処理を採用することができる。
【０１０９】
KビットADRC処理においては、クラスタップを構成する低音質サブバンドデータのサンプル値の最大値MAXと最小値MINが検出され、DR=MAX-MINを、局所的なダイナミックレンジとし、このダイナミックレンジDRに基づいて、クラスタップを構成する低音質サブバンドデータがKビットに再量子化される。即ち、クラスタップを構成する各低音質サブバンドデータのサンプル値から、最小値MINが減算され、その減算値がDR/2^Kで除算（量子化）される。従って、クラスタップが、例えば、１ビットADRC処理される場合には、そのクラスタップを構成する各低音質サブバンドデータのサンプル値は１ビットとされることになる。そして、この場合、以上のようにして得られる、クラスタップを構成する各低音質サブバンドデータについての１ビットのサンプル値を、所定の順番で並べたビット列が、ADRCコードとして出力され、このADRCコードがクラスコードとされる。
【０１１０】
なお、クラス分類は、その他、例えば、クラスタップを構成する低音質サブバンドデータ（のサンプル値）を、ベクトルのコンポーネントとみなし、そのベクトルをベクトル量子化すること等によって行うことも可能である。また、クラス分類としては、１クラスのクラス分類を行うことも可能である。この場合、クラス分類部１２３は、どのようなクラスタップおよび特定情報が供給されても、固定のクラスコードを出力するものとなる。但し、１クラスのクラス分類を行うということは、クラス分類部１２３を設けないことと等価である。
【０１１１】
図６の実施の形態では、クラス分類部１２３は、クラスタップの他、注目データを特定情報としてのサブバンドナンバとデータ位置にも基づいて、クラス分類を行う。ここで、サブバンドナンバとデータ位置に基づくクラス分類も、上述のKビットADRC処理やベクトル量子化などを採用することができるが、サブバンドナンバやデータ位置の数は、それほど多くないので、サブバンドナンバとデータ位置に基づくクラス分類では、そのサブバンドナンバとデータ位置それぞれを表すビット列をそのまま並べて得られるビット列を、クラスコードとすることが可能である。
【０１１２】
即ち、本実施の形態では、上述したように、サブバンドナンバは、０乃至３１の５ビットで表される値であり、データ位置は、０乃至１１の４ビットで表される値である。従って、サブバンドナンバとデータ位置に基づくクラス分類において、そのサブバンドナンバとデータ位置それぞれを表すビット列をそのまま並べて得られるビット列を、クラスコードとして採用しても、クラスコードは、９ビット（＝５＋４ビット）で表されるものとなり、クラス数は、それほど多くならない。
【０１１３】
いま、クラスタップに基づくクラス分類の結果得られるクラスコードを、タップコードというとともに、特定情報としてのサブバンドナンバとデータ位置に基づくクラス分類の結果得られるクラスコードを、情報コードというものとすると、クラス分類部１２３は、タップコードと情報コードを求めた後、そのタップコードと情報コードそれぞれを表すビット列を並べて得られるビット列を、注目データについての最終的なクラスコードとして、タップ係数記憶部１２４に供給する。
【０１１４】
タップ係数記憶部１２４は、学習の教師となる高音質サブバンドデータである教師データと、学習の生徒となる低音質サブバンドデータである生徒データとの関係を、１以上のクラスごとに学習することにより得られたタップ係数を記憶している。そして、タップ係数記憶部１２４は、クラス分類部１２３から注目データのクラスコードが供給されると、そのクラスコードに対応するクラスのタップ係数を読み出すことにより、注目データのクラスのタップ係数を取得し、予測演算部１２５に供給する。なお、タップ係数記憶部１２４に記憶されるタップ係数の学習方法についての詳細は、後述する。
【０１１５】
予測演算部１２５は、タップ係数記憶部１２４から供給される、注目データのクラスのタップ係数ｗ₁，ｗ₂，・・・と、タップ生成部１２１からの注目データの予測タップ（を構成する各低音質サブバンドデータのサンプル値）ｘ₁，ｘ₂，・・・とを用いて、式（１）に示した積和演算を行うことにより、注目データｙ（の予測値）を求め、これを、注目データとしての高音質サブバンドデータのサンプル値とする。予測演算部１２５は、以上のようにして、１サブバンドを構成する高音質サブバンドデータのサンプル値すべてが得られると、その１サブバンドの高音質サブバンドデータを、サブバンド合成部１１４に供給する。
【０１１６】
次に、図７乃至図９を参照して、図６のタップ生成部１２１と１２２でそれぞれ生成される予測タップとクラスタップについて説明する。
【０１１７】
なお、以下、適宜、予測タップとクラスタップを、特に区別する必要がない場合には、単に、タップという。また、ここでは、説明を簡単にするために、予測タップとクラスタップのタップの構造（タップ構造）は、同一であるとする。但し、予測タップとクラスタップとは、異なるタップ構造のものとすることが可能である。
【０１１８】
いま、注目データのサブバンドを注目サブバンドというとともに、注目データのフレームを注目フレームというものとする。
【０１１９】
注目フレームは、図７Ａに示すように、３２のサブバンドsb0乃至sb31で構成されるが、いま、そのうちのサブバンドsb#nが注目サブバンドであるとすると、注目データのタップは、例えば、注目フレームを構成する３２のサブバンドsb0乃至sb31それぞれの低音質サブバンドデータすべてで構成することが可能である。
【０１２０】
しかしながら、この場合、注目データのタップを構成する低音質サブバンドデータのサンプル数（タップ数）が多くなる。そして、その結果、クラス分類部１２３でのクラス分類により得られるクラスの総数も多くなり、また、予測演算部１２５での演算量も多くなる。
【０１２１】
一方、クラス分類適応処理によれば、基本的には、タップ数が多いほど、注目データを精度良く求めることができる（高い予測制度で予測することができる）。しかしながら、タップ数が多くても、その中に、注目データとまったく相関のない、またはほとんど相関のないものが含まれている場合には、逆に、注目データの予測精度が劣化することがある。
【０１２２】
そこで、タップ生成部１２１および１２２は、例えば、注目フレームを構成する３２のサブバンドsb0乃至sb31のうちの、幾つかのサブバンドを、注目データのタップを構成するのに用いるタップ用サブバンドとして選択し、そのタップ用サブバンドの低音質サブバンドデータを、注目データのタップとして抽出する。
【０１２３】
タップ用サブバンドの選択方法としては、例えば、注目サブバンドsb#nだけを選択する方法がある。しかしながら、オーディオデータがMPEG1オーディオレイヤ１で符号化された場合には、上述したように、ビット割り当てが０とされ、サブバンドデータが抜けているサブバンド（以下、適宜、ヌルサブバンドという）が存在することがある。
【０１２４】
従って、タップ用サブバンドを、注目サブバンドsb#nだけとした場合に、その注目サブバンドsb#nがヌルサブバンドであるときには、注目データのタップは、例えば、すべて０となる。予測タップがすべて０の場合、式（１）を演算しても、その演算結果は、必ず０となるから、予測タップがすべて０となるのは好ましくない。
【０１２５】
そこで、タップ用サブバンドとしては、複数のサブバンドを選択するのが望ましい。タップ用サブバンドとして複数のサブバンドを選択する場合、その選択方法としては、例えば、注目サブバンドsb#nと、その注目サブバンドsb#nに近接するサブバンド（例えば、隣接するサブバンドsb#n-1およびsb#n+1など）を選択する方法がある。
【０１２６】
ところで、クラス分類適応処理では、タップに、注目データとの相関が高いデータが含まれる方が、相関が低いデータが含まれる場合よりも、注目データを精度良く求めることができる。
【０１２７】
一方、楽曲などの音の音色は、その音に含まれる倍音などにより決まり、楽曲には、多くの倍音が含まれる。従って、オーディオデータが、楽曲などのデータである場合には、ある周波数帯域の成分は、その２^-N倍や２^N倍の周波数帯域の成分と大きな相関を有することが多い（Ｎは正の整数値）。
【０１２８】
そこで、本実施の形態では、例えば、図７Ｂに示すように、注目サブバンドsb#nと、その注目サブバンドsb#nの１／２倍の周波数帯域のサブバンドsb#nL、および２倍の周波数帯域のサブバンドsb#nHが、タップ用サブバンドとして選択される。
【０１２９】
この場合、タップが、注目サブバンドsb#nと相関の大きいサブバンドのサブバンドデータで構成されることとなるので、注目データとしての高音質データを高精度で求めることが可能となる。
【０１３０】
なお、注目サブバンドsb#nの１／２倍または２倍の周波数帯域のサブバンドsb#nLまたはsb#nHのサブバンドナンバ#nLまたは#nHは、例えば、INT[#n/2]またはINT[#n×2]や、あるいは、INT[#n/2]+1またはINT[#n×2]+1などで、それぞれ表される。但し、INT[]は、[]内の値以下の最大の整数値を表す。
【０１３１】
また、タップ用サブバンドとしては、注目サブバンドsb#nと、その注目サブバンドsb#nの１／２倍の周波数帯域のサブバンド（以下、適宜、ローサブバンドという）sb#nL、および２倍の周波数帯域のサブバンド（以下、適宜、ハイサブバンドという）sb#nHの他、例えば、注目サブバンドsb#nの１／４倍や４倍、１／８倍、８倍などの周波数帯域のサブバンドを選択することも可能である。
【０１３２】
ここで、本実施の形態では、サブバンドは、３２のサブバンドsb0乃至sb31しか存在しないから、注目サブバンドsb#nによっては、その１／２倍の周波数帯域のローサブバンドsb#nL、あるいは２倍の周波数帯域のハイサブバンドsb#nHが存在しないことがある。ローサブバンドsb#nLまたはハイサブバンドsb#nHが存在しない場合、タップ生成部１２１および１２２は、その存在しないサブバンドのサブバンドデータが、例えば０であるとして、タップを構成する。
【０１３３】
次に、タップ生成部１２１および１２２は、上述したように、タップ用サブバンドである注目サブバンドsb#n、ローサブバンドsb#nL、およびハイサブバンドsb#nHのサブバンドデータから、タップを生成する。この場合、タップ生成部１２１おいよび１２２では、例えば、注目サブバンドsb#n、ローサブバンドsb#nL、およびハイサブバンドsb#nHのサブバンドデータのすべてを、タップとすることができる他、そのサブバンドデータの一部だけを、タップとすることも可能である。
【０１３４】
注目サブバンドsb#n、ローサブバンドsb#nL、およびハイサブバンドsb#nHのサブバンドデータの一部をタップとする場合には、例えば、図８に示すように、注目サブバンドsb#n、ローサブバンドsb#nL、ハイサブバンドsb#nHそれぞれから、注目データのデータ位置に近いデータ位置のサブバンドデータを、タップとすることができる。
【０１３５】
即ち、図８では、注目サブバンドsb#nの先頭から６番目のデータ位置にある高音質サブバンドデータd5が注目データとされている。この場合、例えば、注目サブバンドsb#n、ローサブバンドsb#nL、ハイサブバンドsb#nHそれぞれにおいて、注目データd5のデータ位置に近い低音質サブバンドデータd3乃至d7の、合計で２５のサブバンドデータを、注目データのタップとすることができる。
【０１３６】
なお、上述の場合には、注目フレームのサブバンドのサブバンドデータのみを用いて、注目データのタップを構成するようにしたが、注目データのタップは、その他、注目フレームに近接するフレームのサブバンドのサブバンドデータを用いて構成することが可能である。
【０１３７】
即ち、注目データのタップは、例えば、図９Ａに示すように、注目フレームである第ｆフレームの注目サブバンドsb#nと、その１フレーム前または後の第ｆ−１フレームまたは第ｆ＋１フレームそれぞれの、注目サブバンドsb#nと同一のサブバンドナンバ#nのサブバンドsb#nを、タップ用サブバンドとして、そのタップ用サブバンドのサブバンドデータを用いて構成することができる。注目サブバンドsb#nの１フレーム前または後の第ｆ−１フレームまたは第ｆ＋１フレームそれぞれの、注目サブバンドsb#nと同一のサブバンドナンバ#nのサブバンドsb#nは、注目フレームである第ｆフレームの注目サブバンドsb#nとの相関が大きので、注目データとしての高音質データを高精度で求めることが可能となる。
【０１３８】
さらに、注目データのタップは、例えば、図９Ｂに示すように、第ｆ−１乃至第ｆ＋１フレームそれぞれのサブバンドsb#n、第ｆ−１乃至第ｆ＋１フレームそれぞれのローサブバンドsb#nL、および第ｆ−１乃至第ｆ＋１フレームそれぞれのハイサブバンドsb#nHを、タップ用サブバンドとして、そのタップ用サブバンドのサブバンドデータを用いて構成することができる。
【０１３９】
次に、図１０のフローチャートを参照して、図６の復号装置１０２の処理（復号処理）について説明する。
【０１４０】
デコーダ１１１は、あるフレームの符号化ビットストリームを受信すると、そのフレームを、注目フレームとし、ステップＳ１において、その注目フレームについて、通常デコード処理を行う。
【０１４１】
即ち、本実施の形態では、符号化ビットストリームは、オーディオデータをMPEG1オーディオレイヤ１方式で符号化したものであり、ステップＳ１では、注目フレームの符号化ビットストリームが、MPEG1オーディオレイヤ１方式で復号される。
【０１４２】
具体的には、ステップＳ１の通常デコード処理では、まず最初に、ステップＳ２１において、デコーダ１１１は、注目フレームの符号化ビットストリームを、量子化サブバンドデータと、その他のデータであるサイドインフォメーションに分解し、注目フレームのサイドインフォメーションを、コントローラ１１２とクラス分類適応処理部１１３に供給する。そして、ステップＳ２２に進み、デコーダ１１１は、注目フレームの量子化サブバンドデータを逆量子化し、これにより、MPEG1オーディオレイヤ１方式で符号化されて復号されたサブバンドデータ、即ち、低音質サブバンドデータを得る。この注目フレームの低音質サブバンドデータは、クラス分類適応処理部１１３とサブバンド合成部１１４に供給される。
【０１４３】
以上のステップＳ２１および２２の処理によって、ステップＳ１の通常デコード処理が終了し、その後は、ステップＳ２に進む。ステップＳ２では、コントローラ１１２は、注目フレームのサブバンドのサブバンドナンバを表す変数ｎに、初期値としての、例えば０をセットし、ステップＳ３に進む。ステップＳ３では、コントローラ１１２は、注目フレームのサイドインフォメーションを参照することにより、サブバンドナンバ#nで特定される注目フレームのサブバンドsb#nに、サブバンドデータが存在するかどうか、即ち、注目フレームのサブバンドsb#nに対するビット割り当てが０かどうかを判定する。
【０１４４】
ステップＳ３において、注目フレームのサブバンドsb#nに、サブバンドデータが存在すると判定された場合、ステップＳ４乃至Ｓ９をスキップして、ステップＳ１０に進む。
【０１４５】
また、ステップＳ３において、注目フレームのサブバンドsb#nに、サブバンドデータが存在しないと判定された場合、即ち、注目フレームのサブバンドsb#nに対するビット割り当てが０である場合、ステップＳ４に進み、コントローラ１１２は、その注目フレームのサブバンドsb#nを、注目サブバンドとして選択し、ステップＳ５に進む。
【０１４６】
ステップＳ５では、コントローラ１１２は、サブバンドの高音質サブバンドデータのデータ位置を表す変数ｉに、初期値としての、例えば０をセットし、ステップＳ６に進む。
【０１４７】
ステップＳ６では、コントローラ１１２は、注目サブバンドsb#nの、データ位置#iで特定される高音質サブバンドデータd#iを、注目データとして選択する。さらに、ステップＳ６では、コントローラ１１２は、注目データd#iを特定する特定情報として、注目データd#iのデータ位置#iと、注目サブバンドsb#nのサブバンドナンバ#nを、クラス分類適応処理部１１３とサブバンド合成部１１４に供給し、ステップＳ７に進む。
【０１４８】
ステップＳ７では、クラス分類適応処理部１１３が、注目データd#iを求めるクラス分類適応処理を行う。
【０１４９】
即ち、ステップＳ７のクラス分類適応処理では、まず最初に、ステップＳ３１において、タップ生成部１２１と１２２が、コントローラ１１２からの特定情報としてのデータ位置#iとサブバンドナンバ#nで特定される高音質サブバンドデータd#iを、注目データd#iとして認識し、その注目データd#iについて、デコーダ１１１から供給される低音質サブバンドデータを用い、例えば、図７乃至図９で説明した予測タップとクラスタップをそれぞれ生成する。
【０１５０】
ここで、本実施の形態では、説明を簡単にするために、予測タップとクラスタップを、低音質サブバンドデータのみを用いて生成することとしているが、予測タップとクラスタップは、上述したように、デコーダ１１１から供給されるサイドインフォメーションなどをも用いて生成することが可能である。
【０１５１】
ステップＳ３１で得られた予測タップは、タップ生成部１２１から予測演算部１２５に供給され、また、クラスタップは、タップ生成部１２２からクラス分類部１２３に供給され、その後、ステップＳ３１からステップＳ３２に進む。
【０１５２】
ステップＳ３２では、クラス分類部１２３が、タップ生成部１２２から供給されるクラスタップの他、コントローラ１１２から供給される注目サブバンドsb#nのサブバンドナンバ#n、および注目データd#iのデータ位置#iに基づいて、注目データをクラス分類し、その結果得られる注目データのクラスを表すクラスコードを、タップ係数記憶部１２４に供給して、ステップＳ３３に進む。
【０１５３】
ここで、クラス分類部１２３でのクラス分類は、クラスタップ、サブバンドナンバ#n、およびデータ位置#iに基づいて行う他、例えば、クラスタップのみに基づいて行うようにすることも可能である。
【０１５４】
ステップＳ３３では、タップ係数記憶部１２４が、そこに記憶されているクラスごとのタップ係数から、クラス分類部１２３から供給されるクラスコードが表す注目データd#iのクラスのタップ係数を読み出すことにより取得し、その注目データd#iのクラスのタップ係数を、予測演算部１２５に供給して、ステップＳ３４に進む。
【０１５５】
ステップＳ３４では、予測演算部１２５が、タップ生成部１２１から供給される注目データd#iについての予測タップと、タップ係数記憶部１２４から供給される注目データd#iのクラスのタップ係数とを用いて、式（１）の積和演算を行うことにより、注目データd#iを求める。
【０１５６】
以上のステップＳ３１乃至Ｓ３４の処理によって、ステップＳ７のクラス分類適応処理が終了し、ステップＳ８に進む。ステップＳ８では、コントローラ１１２が、変数ｉが、データ位置の最大値である１１に等しいかどうかを判定し、１１に等しくないと判定した場合、ステップＳ９に進む。ステップＳ９では、コントローラ１１２は、変数ｉを１だけインクリメントして、ステップＳ６に戻り、以下、同様の処理が繰り返される。
【０１５７】
また、ステップＳ８において、変数ｉが、データ位置の最大値である１１に等しいと判定された場合、即ち、注目サブバンドsb#nのすべての高音質サブバンドデータを注目データとして、そのサンプル値が、クラス分類適応処理によって求められた場合、クラス分類適応処理部１１３の予測演算部１２５は、その注目サブバンドsb#nの高音質サブバンドデータを、サブバンド合成部１１４に供給して、ステップＳ１０に進む。
【０１５８】
ステップＳ１０では、コントローラ１１２は、変数ｎが、１フレームのサブバンドのサブバンドナンバの最大値である３１に等しいかどうかを判定する。ステップＳ１０において、変数ｎが、サブバンドナンバの最大値である３１に等しくないと判定された場合、ステップＳ１１に進み、コントローラ１１２は、変数ｎを１だけインクリメントして、ステップＳ３に戻り、以下、同様の処理が繰り返される。
【０１５９】
また、ステップＳ１０において、変数ｎが、サブバンドナンバの最大値である３１に等しいと判定された場合、即ち、注目フレームのサブバンドすべてについて、そのサブバンドデータがあるかどうかを判定し、サブバンドデータがないサブバンドについては、クラス分類適応処理によって、高音質サブバンドデータを求めた場合、ステップＳ１２に進み、サブバンド合成部１１４は、デコーダ１１１から供給される、サブバンドデータが存在するサブバンドと、クラス分類適応処理部１１３から供給される、クラス分類適応処理によってサブバンドデータが生成されたサブバンドとを合成することにより、注目フレームの時間領域のオーディオデータを復号して出力する。
【０１６０】
従って、この場合、サブバンドデータがないサブバンド、即ち、ビット割り当てが０のサブバンドについては、クラス分類適応処理によってサブバンドデータが生成され、そのサブバンドデータを用いて、時間領域のオーディオデータが復号される。その結果、ビット割り当てが０とされたサブバンドに対応する周波数成分を有するオーディオデータ、即ち、高音質のオーディオデータを、符号化ビットストリームのデータ量を増加させずに復号することができる。
【０１６１】
なお、サブバンド合成部１１４は、クラス分類適応処理部１１３でサブバンドデータが求められるサブバンドを、コントローラ１１２から供給されるサブバンドナンバから認識する。
【０１６２】
ステップＳ１２の処理後は、ステップＳ１３に進み、デコーダ１１１は、注目フレームの次のフレームの符号化ビットストリームが供給されたかどうかを判定する。ステップＳ１３において、注目フレームの次のフレームの符号化ビットストリームが供給されたと判定された場合、その符号化ビットストリームが供給されたフレームを、新たに注目フレームとして、ステップＳ１に戻り、以下、同様の処理が繰り返される。
【０１６３】
また、ステップＳ１３において、注目フレームの次のフレームの符号化ビットストリームが供給されていないと判定された場合、処理を終了する。
【０１６４】
次に、図１１は、図６の復号装置１０２のタップ係数記憶部１２４に記憶させるクラスごとのタップ係数を学習する学習装置の一実施の形態の構成例を示している。
【０１６５】
教師データ生成部１３１は、タップ係数の学習の教師となる教師データを生成し、学習部１３４に供給する。
【０１６６】
即ち、図６の復号装置１０２のクラス分類適応処理部１１３では、オーディオデータをMPEG1オーディオレイヤ１方式で符号化して復号することにより得られるサブバンドデータ（低音質サブバンドデータ）から予測タップを生成し、その予測タップを用いて、式（１）の積和演算を行うことにより、オーディオデータを単にサブバンド符号化して得られるサブバンドデータ（高音質サブバンドデータ）が求められる。
【０１６７】
従って、式（１）の積和演算に用いるタップ係数としては、オーディオデータを単にサブバンド符号化して得られるサブバンドデータを、教師データとするとともに、オーディオデータをMPEG1オーディオレイヤ１方式で符号化して復号することにより得られるサブバンドデータを生徒データとして、その生徒データと教師データとを、式（１）によって関係付けるものを求めれば良い。
【０１６８】
そこで、教師データ生成部１３１は、学習用データベース１４１とエンコーダ１４２で構成されており、オーディオデータを単にサブバンド符号化して得られる高音質サブバンドデータを、教師データとして生成する。
【０１６９】
即ち、学習用データベース１４１は、タップ係数の学習に用いる学習用データとして、時間領域のディジタルオーディオデータを記憶している。なお、ここでは、学習用データベース１４１に記憶させるオーディオデータは、例えば、図５の符号化装置１０１で符号化対象となるオーディオデータと同一の音質のものとする。但し、学習用データベース１４１に記憶させるオーディオデータは、例えば、図５の符号化装置１０１で符号化対象となるオーディオデータよりも高音質のものとすることが可能である。
【０１７０】
エンコーダ１４２は、図５の符号化装置１０１と同様に構成されており、学習用データベース１４１に記憶されたオーディオデータを読み出し、MPEG1オーディオレイヤ１方式で符号化し、その結果得られる符号化ビットストリームを、生徒データ生成部１３２に供給する。さらに、エンコーダ１４２は、オーディオデータを、MPEG1オーディオレイヤ１方式で符号化する過程で得られる高音質サブバンドデータ、即ち、オーディオデータをサブバンド符号化して得られるサブバンドデータを、教師データとして、学習部１３４の足し込み部１５４に供給する。
【０１７１】
生徒データ生成部１３２は、デコーダ１４３で構成されており、オーディオデータをMPEG1オーディオレイヤ１方式で符号化して復号することにより得られるサブバンドデータを、生徒データとして生成する。
【０１７２】
即ち、デコーダ１４３は、図６のデコーダ１１１と同様に構成されており、教師データ生成部１３１のエンコーダ１４２が出力する符号化ビットストリームをMPEG1オーディオレイヤ１方式で復号し、その復号の過程で得られるサブバンドデータ（低音質サブバンドデータ）とサイドインフォメーションを、生徒データとして、学習部１３４に供給する。さらに、デコーダ１４３は、符号化ビットストリームをMPEG1オーディオレイヤ１方式で復号する過程で得られるサイドインフォメーションを、コントローラ１３３に供給する。
【０１７３】
コントローラ１３３は、デコーダ１４３から供給されるサイドインフォメーションのフレームを注目フレームとして、その注目フレームにおいて、ビット割り当てが０ビットとされたサブバンドがあるかどうかを、デコーダ１４３から供給されるサイドインフォメーションに基づいて判定し、さらに、ビット割り当てが０ビットとされたサブバンド（ヌルサブバンド）がある場合には、そのヌルサブバンドを表すサブバンドナンバを認識する。また、コントローラ１３３は、ヌルサブバンドの高音質サブバンドデータとしての教師データを、順次、注目データとして選択し、その注目データのデータ位置と、その注目データのサブバンド（ヌルサブバンド）を表すサブバンドナンバを、注目データを特定するための特定情報として、学習部１３４に供給する。
【０１７４】
学習部１３４は、教師データ生成部１３１から供給される教師データとしての高音質サブバンドデータと、生徒データ生成部１３２から供給される生徒データとしての低音質サブバンドデータおよびサイドインフォメーションとの関係を学習することにより、式（１）により、教師データと生徒データとを関係付けるタップ係数を、クラスごとに求める。
【０１７５】
即ち、学習部１３４は、タップ生成部１５１および１５２、クラス分類部１５３、足し込み部１５４、タップ係数演算部１５５、並びにタップ係数記憶部１５６で構成されている。
【０１７６】
タップ生成部１５１と１５２は、図６のタップ生成部１２１と１２２における場合と同様に、コントローラ１３３が出力する注目データの特定情報としてのデータ位置とサブバンドナンバから、注目データとしての教師データを認識し、その注目データについて、生徒データ生成部１４３から供給される生徒データから、予測タップとクラスタップを、それぞれ生成する。
【０１７７】
即ち、タップ生成部１５１は、注目データについて、生徒データ生成部１４３から供給される生徒データを用い、図６のタップ生成部１２１が生成するのと同一のタップ構造の予測タップを構成し、足し込み部１５４に供給する。タップ生成部１５２も、注目データについて、生徒データ生成部１４３から供給される生徒データを用い、図６のタップ生成部１２２が生成するのと同一のタップ構造のクラスタップを構成し、クラス分類部１５３に供給する。
【０１７８】
クラス分類部１５３は、タップ生成部１５２から供給されるクラスタップと、コントローラ１３３から供給される注目データの特定情報としてのデータ位置およびサブバンドナンバに基づき、注目データのクラス分類を、図６のクラス分類部１２３と同様に行う。クラス分類部１５３でクラス分類が行われることにより得られる注目データのクラスを表すクラスコードは、クラス分類部１５３から足し込み部１５４に供給される。
【０１７９】
足し込み部１５４およびタップ係数演算部１５５は、教師データ生成部１３１から供給される教師データのうちの注目データと、タップ生成部１５１から供給される予測タップとを用い、教師データと生徒データとの関係を、クラス分類部１５３から供給されるクラスごとに学習することにより、クラスごとのタップ係数を求める。
【０１８０】
即ち、足し込み部１５４は、クラス分類部１５３が出力するクラスコードごとに、タップ生成部１５１から供給される予測タップと、教師データ生成部１３１から供給される教師データのうちの注目データとを対象とした、式（８）の足し込みを行う。
【０１８１】
具体的には、足し込み部１５４は、クラス分類部１５３から供給されるクラスコードに対応するクラスごとに、予測タップを構成する生徒データとしての低音質サブバンドデータ（あるいは、サイドインフォメーション）ｘ_n,kを用い、式（８）の左辺の行列における低音質サブバンドデータどうしの乗算（ｘ_n,kｘ_n',k）と、サメーション（Σ）に相当する演算を行う。
【０１８２】
さらに、足し込み部１５４は、やはり、クラス分類部１５３から供給されるクラスコードに対応するクラスごとに、予測タップを構成する生徒データとしての低音質サブバンドデータｘ_n,kと注目データとなっている教師データである高音質サブバンドデータｙ_kを用い、式（８）の右辺のベクトルにおける低音質サブバンドデータｘ_n,kおよび高音質サブバンドデータｙ_kの乗算（ｘ_n,kｙ_k）と、サメーション（Σ）に相当する演算を行う。
【０１８３】
足し込み部１５４は、教師データ生成部１３１から供給される教師データとしての高音質サブバンドデータすべてを注目データとしして、上述の足し込みを行うことにより、各クラスについて、式（８）に示した正規方程式をたてると、その正規方程式を、タップ係数演算部１５５に供給する。
【０１８４】
タップ係数演算部１５５は、足し込み部１５４から、各クラスについての式（８）の正規方程式を受信し、その正規方程式を解くことにより、クラスごとのタップ係数を求めて出力する。
【０１８５】
タップ係数記憶部１５６は、タップ係数演算部１５５が出力するクラスごとのタップ係数を記憶する。
【０１８６】
次に、図１２のフローチャートを参照して、図１１の学習装置において行われる、クラスごとのタップ係数を求める学習処理について説明する。
【０１８７】
まず最初に、教師データ生成部１３１は、学習用データベース１４１に記憶されたオーディオデータのフレームのうちの１フレームを注目フレームとし、ステップＳ４１において、その注目フレームの教師データを生成する。即ち、教師データ生成部１３１では、エンコーダ１４２が、学習用データベース１４１から、注目フレームのオーディオデータを読み出し、MPEG1オーディオレイヤ１方式で符号化する。そして、エンコーダ１４２は、注目フレームのオーディオデータの符号化の過程で得られる注目フレームの高音質サブバンドデータを、教師データとして、学習部１３４の足し込み部１５４に供給するとともに、その符号化の結果得られる注目フレームの符号化ビットストリームを生徒データ生成部１３２に供給する。
【０１８８】
その後、ステップＳ４２に進み、生徒データ生成部１３２は、教師データ生成部１３１から供給される注目フレームの符号化ビットストリームから生徒データを生成する。即ち、ステップＳ４２では、生徒データ生成部１３２のデコーダ１４３が、注目フレームの符号化ビットストリームを、MPEG1オーディオレイヤ１方式で復号する。そして、デコーダ１４３は、注目フレームの符号化ビットストリームの復号過程で得られる低音質サブバンドデータとサイドインフォメーションを、生徒データとして、学習部１３４に供給する。さらに、デコーダ１４３は、サイドインフォメーションを、コントローラ１３３にも供給する。
【０１８９】
そして、ステップＳ４３に進み、コントローラ１３３は、注目フレームのサブバンドのサブバンドナンバを表す変数ｎに、初期値としての、例えば０をセットし、ステップＳ４４に進む。ステップＳ４４では、コントローラ１３３は、注目フレームのサイドインフォメーションを参照することにより、サブバンドナンバ#nで特定される注目フレームのサブバンドsb#nに、生徒データとしてのサブバンドデータが存在するかどうか、即ち、注目フレームのサブバンドsb#nに対するビット割り当てが０かどうかを判定する。
【０１９０】
ステップＳ４４において、注目フレームのサブバンドsb#nに、サブバンドデータが存在すると判定された場合、ステップＳ４５乃至Ｓ５２をスキップして、ステップＳ５３に進む。
【０１９１】
また、ステップＳ４４において、注目フレームのサブバンドsb#nに、生徒データとしてのサブバンドデータが存在しないと判定された場合、即ち、注目フレームのサブバンドsb#nに対するビット割り当てが０である場合、ステップＳ４５に進み、コントローラ１３３は、その注目フレームのサブバンドsb#nを、注目サブバンドとして選択し、ステップＳ４６に進む。
【０１９２】
ステップＳ４６では、コントローラ１３３は、サブバンドの高音質サブバンドデータのデータ位置を表す変数ｉに、初期値としての、例えば０をセットし、ステップＳ４７に進む。
【０１９３】
ステップＳ４７では、コントローラ１３３は、注目サブバンドsb#nの、データ位置#iで特定される高音質サブバンドデータとしての教師データd#iを、注目データとして選択する。さらに、ステップＳ４７では、コントローラ１３３は、注目データd#iを特定する特定情報として、注目データd#iのデータ位置#iと、注目サブバンドsb#nのサブバンドナンバ#nを、学習部１３４に供給し、ステップＳ４８に進む。
【０１９４】
ステップＳ４８では、タップ生成部１５１と１５２が、コントローラ１３３からの特定情報としてのデータ位置#iとサブバンドナンバ#nで特定される高音質サブバンドデータとしての教師データd#iを、注目データd#iとして認識し、その注目データd#iについて、生徒データ生成部１３２から供給される生徒データとしての低音質サブバンドデータとサイドインフォメーションを用い、図６のタップ生成部１２１と１２２における場合と同一のタップ構造の予測タップとクラスタップを、それぞれ生成する。
【０１９５】
ステップＳ４８で得られた予測タップは、タップ生成部１５１から足し込み部１５４に供給され、また、クラスタップは、タップ生成部１５２からクラス分類部１５３に供給され、その後、ステップＳ４８からステップＳ４９に進む。
【０１９６】
ステップＳ４９では、クラス分類部１５３が、タップ生成部１５２から供給されるクラスタップの他、コントローラ１３３から供給される注目サブバンドsb#nのサブバンドナンバ#n、および注目データd#iのデータ位置#iに基づき、注目データについて、図６のクラス分類部１２３と同一のクラス分類を行い、その結果得られる注目データのクラスを表すクラスコードを、足し込み部１５４に供給して、ステップＳ５０に進む。
【０１９７】
ステップＳ５０では、足し込み部１５４が、教師データ生成部１３１から供給される注目フレームの教師データのうちの注目データとなっているものを選択する。さらに、ステップＳ５０では、足し込み部１５４が、クラス分類部１５３から供給されるクラスコードが表す注目データのクラスごとに、タップ生成部１５１から供給される予測タップ、および注目データを対象とした、上述した式（８）における足し込みを行い、ステップＳ５１に進む。
【０１９８】
ステップＳ５１では、コントローラ１３３が、変数ｉが、データ位置の最大値である１１に等しいかどうかを判定し、１１に等しくないと判定した場合、ステップＳ５２に進む。ステップＳ５２では、コントローラ１３３は、変数ｉを１だけインクリメントして、ステップＳ４７に戻り、以下、同様の処理が繰り返される。
【０１９９】
また、ステップＳ５１において、変数ｉが、データ位置の最大値である１１に等しいと判定された場合、即ち、注目サブバンドsb#nのすべての高音質サブバンドデータを注目データとして、ステップＳ５０の足し込みが行われた場合、ステップＳ５３に進み、コントローラ１３３は、変数ｎが、１フレームのサブバンドのサブバンドナンバの最大値である３１に等しいかどうかを判定する。ステップＳ５３において、変数ｎが、サブバンドナンバの最大値である３１に等しくないと判定された場合、ステップＳ５４に進み、コントローラ１３３は、変数ｎを１だけインクリメントして、ステップＳ４４に戻り、以下、同様の処理が繰り返される。
【０２００】
また、ステップＳ５３において、変数ｎが、サブバンドナンバの最大値である３１に等しいと判定された場合、即ち、注目フレームのサブバンドすべてについて、そのサブバンドデータがあるかどうかを判定し、サブバンドデータがないサブバンドを注目サブバンドとして、ステップＳ５０の足し込みを行った場合、ステップＳ５５に進み、教師データ生成部１３１は、注目フレームの次のフレームのオーディオデータが、学習用データベース１４１に記憶されているかどうかを判定する。ステップＳ５５において、注目フレームの次のフレームのオーディオデータが、学習用データベース１４１に記憶されていると判定された場合、その注目フレームの次のフレームを、新たに注目フレームとして、ステップＳ４１に戻り、以下、同様の処理が繰り返される。
【０２０１】
また、ステップＳ５５において、注目フレームの次のフレームのオーディオデータが、学習用データベース１４１に記憶されていないと判定された場合、即ち、学習用データベース１４１に記憶されたオーディオデータのフレームすべてを注目フレームとして、ステップＳ５０の足し込みが行われた場合、足し込み部１５４は、いままでのステップＳ５０における足し込みによって、クラスごとに得られた式（８）の正規方程式を、タップ係数演算部１５５に供給して、ステップＳ５６に進む。
【０２０２】
ステップＳ５６では、タップ係数演算部１５５は、足し込み部１５４から供給される、各クラスごとの式（８）の正規方程式を解くことにより、クラスごとのタップ係数を求め、タップ係数記憶部１５６に供給して記憶させ、処理を終了する。
【０２０３】
以上のようにして、タップ係数記憶部１５６に記憶されたクラスごとのタップ係数が、図６の復号装置１０２におけるタップ係数記憶部１２４に記憶されている。
【０２０４】
なお、以上のようなタップ係数の学習処理において、用意する学習用データ等によっては、タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じる場合があり得るが、そのようなクラスについては、例えば、タップ係数演算部１５５において、デフォルトのタップ係数を出力するようにすること等が可能である。あるいは、タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じた場合には、新たに学習用データを用意して学習用データベース１４１に記憶させ、再度、タップ係数の学習を行うようにしても良い。
【０２０５】
以上のように、図１１の学習装置では、オーディオデータをサブバンド符号化して得られるサブバンドデータを、教師データとするとともに、そのオーディオデータをMPEG1オーディオレイヤ１方式で符号化して復号することにより得られるサブバンドデータ（さらには、サイドインフォメーション）を生徒データとして、その教師データと生徒データとの関係を学習することにより、式（１）によって、教師データと生徒データとを関係付けるタップ係数を、クラスごとに求めるようにしたので、図６の復号装置１０２において、そのようなタップ係数を用いて、ビット割り当てが０とされたサブバンドのサブバンドデータを求めることにより、高音質のオーディオデータを復号することが可能となる。
【０２０６】
次に、図１３は、図５の復号装置１０２の第２の構成例を示している。なお、図中、図６における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図１３の復号装置１０２は、基本的に、図６における場合と同様に構成されている。但し、サブバンド合成部１１４には、デコーダ１１１が出力する低音質サブバンドデータが供給されないようになっている。さらに、クラス分類適応処理部１１３は、ビット割り当てが０のサブバンドの高音質サブバンドデータの他、ビット割り当てが１ビット以上のサブバンドの高音質サブバンドデータも求めて、サブバンド合成部１１４に供給するようになっている。即ち、クラス分類適応処理部１１３は、すべてのサブバンドについて、高音質サブバンドデータを求めて、サブバンド合成部１１４に供給するようになっている。
【０２０７】
なお、図１３の実施の形態では、クラス分類適応処理部１１３からサブバンド合成部１１４に対して、すべてのサブバンドの高音質サブバンドデータが供給されることから、図６の実施の形態における場合のように、サブバンド合成部１１４において、クラス分類適応処理部１１３から供給されるサブバンドデータのサブバンドが、いずれのサブバンドナンバのものであるかを、特に認識する必要がないので、サブバンド合成部１１４には、コントローラ１１２が出力する特定情報としてのサブバンドナンバとデータ位置が供給されないようになっている（供給する必要がない）。
【０２０８】
次に、図１４のフローチャートを参照して、図１３の復号装置１０２による復号処理について説明する。
【０２０９】
図１３の復号装置１０２では、上述したように、クラス分類適応処理部１１３は、すべてのサブバンドについて、高音質サブバンドデータを求めて、サブバンド合成部１１４に供給するようになっている。
【０２１０】
即ち、デコーダ１１１は、あるフレームの符号化ビットストリームを受信すると、そのフレームを、注目フレームとし、ステップＳ６１において、その注目フレームについて、図１０のステップＳ１における場合と同様の通常デコード処理を行う。
【０２１１】
ステップＳ６１において、デコーダ１１１が通常デコード処理を行うことにより得られる注目フレームのサイドインフォメーションは、コントローラ１１２とクラス分類適応処理部１１３に供給され、さらに、注目フレームの低音質サブバンドデータ（MPEG1オーディオレイヤ１方式で符号化されて復号されたサブバンドデータ）は、クラス分類適応処理部１１３に供給される。
【０２１２】
そして、ステップＳ６２に進み、コントローラ１１２は、注目フレームのサブバンドのサブバンドナンバを表す変数ｎに、初期値としての、例えば０をセットし、ステップＳ６３に進む。ステップＳ６３では、コントローラ１１２は、注目フレームのサブバンドsb#nを、注目サブバンドとして選択し、ステップＳ６４に進む。
【０２１３】
ステップＳ６４では、コントローラ１１２は、サブバンドの高音質サブバンドデータのデータ位置を表す変数ｉに、初期値としての、例えば０をセットし、ステップＳ６５に進む。
【０２１４】
ステップＳ６５では、コントローラ１１２は、注目サブバンドsb#nの、データ位置#iで特定される高音質サブバンドデータd#iを、注目データとして選択する。さらに、ステップＳ６５では、コントローラ１１２は、注目データd#iを特定する特定情報として、注目データd#iのデータ位置#iと、注目サブバンドsb#nのサブバンドナンバ#nを、クラス分類適応処理部１１３に供給し、ステップＳ６６に進む。
【０２１５】
ステップＳ６６では、クラス分類適応処理部１１３が、注目データd#iを求めるクラス分類適応処理を行う。即ち、ステップＳ６６では、クラス分類適応処理部１１３が、図１０のステップＳ７における場合と同様のクラス分類適応処理を行うことにより、注目データd#iを求め、ステップＳ６７に進む。
【０２１６】
ステップＳ６７では、コントローラ１１２が、変数ｉが、データ位置の最大値である１１に等しいかどうかを判定し、１１に等しくないと判定した場合、ステップＳ６８に進む。ステップＳ６８では、コントローラ１１２は、変数ｉを１だけインクリメントして、ステップＳ６５に戻り、以下、同様の処理が繰り返される。
【０２１７】
また、ステップＳ６７において、変数ｉが、データ位置の最大値である１１に等しいと判定された場合、即ち、注目サブバンドsb#nのすべての高音質サブバンドデータを注目データとして、そのサンプル値が、クラス分類適応処理によって求められた場合、クラス分類適応処理部１１３の予測演算部１２５は、その注目サブバンドsb#nの高音質サブバンドデータを、サブバンド合成部１１４に供給して、ステップＳ６９に進む。
【０２１８】
ステップＳ６９では、コントローラ１１２は、変数ｎが、１フレームのサブバンドのサブバンドナンバの最大値である３１に等しいかどうかを判定する。ステップＳ６９において、変数ｎが、サブバンドナンバの最大値である３１に等しくないと判定された場合、ステップＳ７０に進み、コントローラ１１２は、変数ｎを１だけインクリメントして、ステップＳ６３に戻り、以下、同様の処理が繰り返される。
【０２１９】
また、ステップＳ６９において、変数ｎが、サブバンドナンバの最大値である３１に等しいと判定された場合、即ち、注目フレームのサブバンドすべてについて、クラス分類適応処理によって、高音質サブバンドデータを求めた場合、ステップＳ７１に進み、サブバンド合成部１１４は、クラス分類適応処理部１１３から供給された、クラス分類適応処理によってサブバンドデータが生成された注目フレームのサブバンドを合成することにより、注目フレームの時間領域のオーディオデータを復号して出力する。
【０２２０】
従って、この場合、ビット割り当てが０とされたサブバンド（ヌルサブバンド）についてだけでなく、すべてのサブバンドについて、クラス分類適応処理によって高音質サブバンドデータが生成され、その高音質サブバンドデータを用いて、時間領域のオーディオデータが復号される。即ち、この場合、符号化装置１０１（図５）においてビット割り当てが０とされたサブバンドについては、そのサブバンドのサブバンドデータが、いわば創造され、サブバンド合成に用いられる。また、符号化装置１０１においてビット割り当てが１以上とされたサブバンドについては、符号化装置１０１における量子化などに起因して生じる歪みを除去（軽減）したサブバンドデータが創造され、サブバンド合成に用いられる。その結果、より高音質のオーディオデータを、符号化ビットストリームのデータ量を増加させずに復号することができる。
【０２２１】
ステップＳ７１の処理後は、ステップＳ７２に進み、デコーダ１１１は、注目フレームの次のフレームの符号化ビットストリームが供給されたかどうかを判定する。ステップＳ７２において、注目フレームの次のフレームの符号化ビットストリームが供給されたと判定された場合、その符号化ビットストリームが供給されたフレームを、新たに注目フレームとして、ステップＳ６１に戻り、以下、同様の処理が繰り返される。
【０２２２】
また、ステップＳ７２において、注目フレームの次のフレームの符号化ビットストリームが供給されていないと判定された場合、処理を終了する。
【０２２３】
次に、図１３の復号装置１０２のクラス分類適応処理部１１３では、ヌルサブバンドの高音質サブバンドデータだけでなく、すべてのサブバンドの高音質サブバンドデータが求められる。このため、図１３のタップ係数記憶部１２４は、ヌルサブバンドの高音質サブバンドデータだけでなく、すべてのサブバンドの高音質サブバンドデータを求めるためのタップ係数を記憶している。
【０２２４】
ここで、図１３の復号装置１０２のクラス分類適応処理部１１３では、オーディオデータをMPEG1オーディオレイヤ１方式で符号化して復号することにより得られるサブバンドデータ（低音質サブバンドデータ）から予測タップを生成し、その予測タップを用いて、式（１）の積和演算を行うことにより、オーディオデータを単にサブバンド符号化して得られるサブバンドデータ（高音質サブバンドデータ）が求められる。
【０２２５】
従って、式（１）の積和演算に用いるタップ係数としては、オーディオデータを単にサブバンド符号化して得られるサブバンドデータを、教師データとするとともに、オーディオデータをMPEG1オーディオレイヤ１方式で符号化して復号することにより得られるサブバンドデータを生徒データとして、その生徒データと教師データとを、式（１）によって関係付けるものを求めれば良い。
【０２２６】
このような教師データと生徒データとを関係付けるタップ係数は、上述した図１１の学習装置において求めることができるが、図１１の学習装置で行われる図１２の学習処理では、ヌルサブバンドだけが注目サブバンドとされ、ヌルサブバンドについて得られる教師データと生徒データを用いて、タップ係数が求められる。
【０２２７】
一方、図１３の復号装置１０２では、ヌルサブバンドの高音質サブバンドデータだけでなく、すべてのサブバンドの高音質サブバンドデータが求められるため、その高音質サブバンドデータを求めるのに用いるタップ係数は、ヌルサブバンドだけでなく、すべてのサブバンドについて得られる教師データと生徒データを用いて求める（学習する）必要がある。
【０２２８】
そこで、図１３の復号装置１０２のタップ係数記憶部１２４に記憶させるタップ係数は、図１１の学習装置に、図１２の学習処理に代えて、図１５のフローチャートにしたがった学習処理を行わせることで求めることができる。
【０２２９】
即ち、図１５の学習処理では、教師データ生成部１３１は、学習用データベース１４１に記憶されたオーディオデータのフレームのうちの１フレームを注目フレームとし、ステップＳ８１において、図１２のステップＳ４１における場合と同様に、注目フレームのオーディオデータをMPEG1オーディオレイヤ１方式で符号化し、その符号化の過程で得られる注目フレームの高音質サブバンドデータを、教師データとして、学習部１３４の足し込み部１５４に供給するとともに、その符号化の結果得られる注目フレームの符号化ビットストリームを生徒データ生成部１３２に供給する。
【０２３０】
その後、ステップＳ８２に進み、生徒データ生成部１３２は、図１２のステップＳ４２における場合と同様に、教師データ生成部１３１から供給される注目フレームの符号化ビットストリームを、MPEG1オーディオレイヤ１方式で復号し、その復号過程で得られる低音質サブバンドデータとサイドインフォメーションを、生徒データとして、学習部１３４に供給する。さらに、ステップＳ８２では、生徒データ生成部１３２は、サイドインフォメーションを、コントローラ１３３にも供給する。
【０２３１】
そして、ステップＳ８３に進み、コントローラ１３３は、注目フレームのサブバンドのサブバンドナンバを表す変数ｎに、初期値としての、例えば０をセットし、ステップＳ８４に進む。ステップＳ８４では、コントローラ１３３は、注目フレームのサブバンドsb#nを、注目サブバンドとして選択し、ステップＳ８５に進む。
【０２３２】
ステップＳ８５では、コントローラ１３３は、サブバンドの高音質サブバンドデータのデータ位置を表す変数ｉに、初期値としての、例えば０をセットし、ステップＳ８６に進む。
【０２３３】
ステップＳ８６では、コントローラ１３３は、注目サブバンドsb#nの、データ位置#iで特定される高音質サブバンドデータとしての教師データd#iを、注目データとして選択する。そして、ステップＳ８７に進み、以下、ステップＳ８７乃至９５において、図１２のステップＳ４８乃至Ｓ５６における場合とそれぞれ同様の処理が行われ、処理を終了する。
【０２３４】
図１５の学習処理では、図１２の学習処理における場合のように、サブバンドsb#nがヌルサブバンドであるかどうかを判定せず（図１２のＳ４５）、すべてのサブバンドが注目サブバンドとして処理されるので、すべてのサブバンドについて得られる教師データと生徒データを用いて、タップ係数が求められる。
【０２３５】
従って、図１３の復号装置１０２では、図１５の学習処理により得られるタップ係数を用いて、すべてのサブバンドについて、教師データと同音質の高音質サブバンドデータが求められるので、より高音質のオーディオデータを復号することができる。
【０２３６】
次に、図１６は、図５の復号装置１０２の第３の構成例を示している。なお、図中、図６または図１３における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図１６の復号装置１０２は、サブバンド合成部１１４が設けられていない他は、図１３における場合と、基本的に同様に構成されている。
【０２３７】
但し、図６および図１３の復号装置１０２は、周波数領域のオーディオデータである低音質サブバンドデータから高音質サブバンドデータを求め、その高音質サブバンドデータを用いて、サブバンド合成部１１４においてサブバンド合成を行うことにより、高音質の時間領域のオーディオデータを復号するようになっていたが、図１６の復号装置１０２は、周波数領域のオーディオデータである低音質サブバンドデータから、いわば直接、高音質の時間領域のオーディオデータを復号するようになっている。
【０２３８】
即ち、図１６の実施の形態では、クラス分類適応処理１１３は、クラス分類適応処理によって、周波数領域のオーディオデータである低音質サブバンドデータを、高音質の時間領域のオーディオデータ（以下、適宜、高音質オーディオデータという）に変換する。
【０２３９】
そのため、図１６の復号装置１０２では、コントローラ１１２は、クラス分類適応処理部１１３において求めようとする高音質の時間領域のオーディオデータを、順次、注目データとして選択する。さらに、コントローラ１１２は、注目データのフレームにおける、その注目データのデータ位置などを、注目データを特定するための特定情報として、クラス分類適応処理部１１３に供給する。また、コントローラ１１２は、デコーダ１１１から供給されるサイドインフォメーションに基づき、注目データのフレームである注目フレームにおいてサブバンドデータが抜けているサブバンド、即ち、符号化装置１０１（図５）においてビット割り当てが０ビットとされたサブバンド（ヌルサブバンド）があるかどうかを判定し、さらに、ヌルサブバンドがある場合には、そのヌルサブバンドを表すサブバンドナンバを認識し、クラス分類適応処理部１１３に供給する。
【０２４０】
クラス分類適応処理部１１３は、デコーダ１１１から供給されるサブバンドデータ（低音質サブバンドデータ）、およびコントローラ１１２から供給される注目データのデータ位置と注目フレームにおけるヌルサブバンドのサブバンドナンバなどを用いて、クラス分類適応処理を行うことにより、注目データとしての高音質オーディオデータを求めて（予測して）出力する。
【０２４１】
即ち、図１６のクラス分類適応処理部１１３において、タップ生成部１２１は、コントローラ１１２から供給されるデータ位置によって特定される高音質オーディオデータを注目データとして選択し、その注目データ（の予測値）を求めるのに用いる予測タップを、デコーダ１１１から供給される、MPEG1オーディオレイヤ１方式により復号されたサブバンドデータである低音質サブバンドデータ、さらには、やはり、デコーダ１１１から供給されるサイドインフォメーションから生成し、予測演算部１２５に供給する。
【０２４２】
具体的には、タップ生成部１２１は、例えば、注目データのフレームである注目フレームの低音質サブバンドデータの幾つか、さらには注目フレームのサイドインフォメーションの幾つかを抽出し、それらを所定の順番で並べたものを、予測タップとする。
【０２４３】
ここで、本実施の形態においては、少なくとも、注目フレームの低音質サブバンドデータのすべてを含む予測タップを構成するのが望ましい。
【０２４４】
即ち、本実施の形態において、符号化装置１０１（図５）では、上述したように、オーディオデータがMPEG1オーディオレイヤ１方式で符号化される。MPEG1オーディオレイヤ１方式では、図１７に示すように、３８４サンプルのオーディオデータs0,s1,・・・，s383を１フレームとして、その１フレームのオーディオデータがサブバンド符号化（分割）されることにより、３２のサブバンドsb0,sb1,・・・，sb31のサブバンドデータとされる。従って、３２のサブバンドsb0乃至sb31それぞれには、そのフレームの時間領域のオーディオデータすべての周波数成分が反映されるから、注目データとされた時間領域のオーディオデータを予測するのに、３２のサブバンドsb0乃至sb31のうちの一部のサブバンドデータしか用いないのは、注目データの予測精度が劣化することがあり得る。このため、図１６の復号装置１０２では、予測タップは、注目フレームの低音質サブバンドデータのすべてを含むものとするのが望ましい。
【０２４５】
なお、図１７に示すように、１つのサブバンドは、１２サンプルのサブバンドデータから構成され、さらに、１フレームは、３２のサブバンドから構成されるから、予測タップを、注目フレームの低音質サブバンドデータのすべてを含めて構成した場合、予測タップのタップ数は、少なくとも、３８４（＝１２×３２）タップとなる。
【０２４６】
また、予測タップは、注目フレームのサブバンドデータやサイドインフォメーションの他、例えば、注目フレームに近接するフレームのサブバンドデータやサイドインフォメーションなどを含めて構成することが可能である。
【０２４７】
図１６に戻り、タップ生成部１２２は、タップ生成部１２１と同様に、コントローラ１１２から供給されるデータ位置の高音質オーディオデータを、注目データとして選択し、その注目データのクラス分類に用いるクラスタップを、デコーダ１１１から供給される低音質サブバンドデータとサイドインフォメーションから生成し、クラス分類部１２３に出力する。
【０２４８】
クラス分類部１２３は、タップ生成部１２２からのクラスタップ、さらには、例えば、コントローラ１１２から供給される注目フレームにおけるヌルサブバンドのサブバンドナンバや、注目データのデータ位置に基づいて、注目データをクラス分類し、その結果得られる注目データのクラスに対応するクラスコードを、タップ係数記憶部１２４に供給する。
【０２４９】
タップ係数記憶部１２４は、後述する図１９の学習装置によって、学習の教師となる高音質オーディオデータである教師データと、学習の生徒となる低音質サブバンドデータである生徒データとの関係を、１以上のクラスごとに学習することにより得られたタップ係数を記憶している。そして、タップ係数記憶部１２４は、クラス分類部１２３から注目データのクラスコードが供給されると、そのクラスコードに対応するクラスのタップ係数を読み出すことにより、注目データのクラスのタップ係数を取得し、予測演算部１２５に供給する。
【０２５０】
予測演算部１２５は、タップ係数記憶部１２４から供給される、注目データのクラスのタップ係数ｗ₁，ｗ₂，・・・と、タップ生成部１２１からの注目データの予測タップ（を構成する各低音質サブバンドデータのサンプル値）ｘ₁，ｘ₂，・・・とを用いて、式（１）に示した積和演算を行うことにより、注目データｙ（の予測値）としての高音質オーディオデータを求める。予測演算部１２５は、以上のようにして、１フレームを構成する高音質オーディオデータのサンプル値すべてが得られると、その１フレームの高音質オーディオデータを出力する。
【０２５１】
次に、図１８のフローチャートを参照して、図１６の復号装置１０２の処理（復号処理）について説明する。
【０２５２】
デコーダ１１１は、あるフレームの符号化ビットストリームを受信すると、そのフレームを、注目フレームとし、ステップＳ１０１において、その注目フレームについて、図１０のステップＳ１における場合と同様の通常デコード処理を行う。
【０２５３】
ステップＳ１０１の通常デコード処理において得られる、MPEG1オーディオレイヤ１方式で符号化されて復号された注目フレームのサブバンドデータ、即ち、低音質サブバンドデータは、クラス分類適応処理部１１３に供給され、また、注目フレームのサイドインフォメーションは、コントローラ１１２とクラス分類適応処理部１１３に供給される。
【０２５４】
その後は、ステップＳ１０２に進み、コントローラ１１２は、注目フレームの高音質オーディオデータのデータ位置を表す変数ｍに、初期値としての、例えば０をセットし、ステップＳ１０３に進む。
【０２５５】
ステップＳ１０３では、コントローラ１１２は、注目フレームの、データ位置#mで特定される高音質オーディオデータs#mを、注目データとして選択する。さらに、ステップＳ１０３では、コントローラ１１２は、注目データs#mを特定するデータ位置#mと、注目フレームにおけるヌルサブバンドのサブバンドナンバを、クラス分類適応処理部１１３に供給し、ステップＳ１０４に進む。
【０２５６】
ステップＳ１０４では、クラス分類適応処理部１１３が、注目データs#mを求めるクラス分類適応処理を行う。
【０２５７】
即ち、ステップＳ１０４のクラス分類適応処理では、まず最初に、ステップＳ１２１において、タップ生成部１２１と１２２が、コントローラ１１２からのデータ位置#mで特定される高音質オーディオデータs#mを、注目データs#mとして認識し、その注目データs#mについて、デコーダ１１１から供給される低音質サブバンドデータ、さらには、必要に応じてサイドインフォメーションを用い、予測タップとクラスタップを生成する。
【０２５８】
ステップＳ１２１で得られた予測タップは、タップ生成部１２１から予測演算部１２５に供給され、また、クラスタップは、タップ生成部１２１からクラス分類部１２３に供給され、その後、ステップＳ１２１からステップＳ１２２に進む。
【０２５９】
ステップＳ１２２では、クラス分類部１２３が、タップ生成部１２２から供給されるクラスタップの他、コントローラ１１２から供給される注目フレームにおけるヌルサブバンドのサブバンドナンバ、および注目データs#mのデータ位置#mに基づいて、注目データをクラス分類し、その結果得られる注目データのクラスを表すクラスコードを、タップ係数記憶部１２４に供給して、ステップＳ１２３に進む。
【０２６０】
ステップＳ１２３では、タップ係数記憶部１２４が、そこに記憶されているクラスごとのタップ係数から、クラス分類部１２３から供給されるクラスコードが表す注目データs#mのクラスのタップ係数を読み出すことにより取得し、その注目データs#mのクラスのタップ係数を、予測演算部１２５に供給して、ステップＳ１２４に進む。
【０２６１】
ステップＳ１２４では、予測演算部１２５が、タップ生成部１２１から供給される注目データs#mについての予測タップと、タップ係数記憶部１２４から供給される注目データs#mのクラスのタップ係数とを用いて、式（１）の積和演算を行うことにより、注目データs#mを求める。
【０２６２】
以上のステップＳ１２１乃至Ｓ１２４の処理によって、ステップＳ１０４のクラス分類適応処理が終了し、ステップＳ１０５に進む。ステップＳ１０５では、コントローラ１１２が、変数ｍが、時間領域の１フレームのオーディオデータのデータ位置の最大値である３８３（図１７）に等しいかどうかを判定し、３８３に等しくないと判定した場合、ステップＳ１０６に進む。ステップＳ１０６では、コントローラ１１２は、変数ｍを１だけインクリメントして、ステップＳ１０３に戻り、以下、同様の処理が繰り返される。
【０２６３】
また、ステップＳ１０５において、変数ｍが、データ位置の最大値である３８３に等しいと判定された場合、即ち、注目フレームのすべての高音質オーディオデータを注目データとして、そのサンプル値が、クラス分類適応処理によって求められた場合、クラス分類適応処理部１１３の予測演算部１２５は、その注目フレームの高音質オーディオデータを出力する。
【０２６４】
従って、この場合、符号化装置１０１（図５）が出力する符号化ビットストリームのデータ量を増加させずに、高音質のオーディオデータを復号することができる。
【０２６５】
その後、ステップＳ１０７に進み、デコーダ１１１は、注目フレームの次のフレームの符号化ビットストリームが供給されたかどうかを判定する。ステップＳ１０７において、注目フレームの次のフレームの符号化ビットストリームが供給されたと判定された場合、その符号化ビットストリームが供給されたフレームを、新たに注目フレームとして、ステップＳ１０１に戻り、以下、同様の処理が繰り返される。
【０２６６】
また、ステップＳ１０７において、注目フレームの次のフレームの符号化ビットストリームが供給されていないと判定された場合、処理を終了する。
【０２６７】
次に、図１９は、図１６の復号装置１０２のタップ係数記憶部１２４に記憶させるクラスごとのタップ係数を学習する学習装置の一実施の形態の構成例を示している。なお、図中、図１１における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図１９の学習装置は、基本的に、図１１の学習装置と同様に構成されている。
【０２６８】
但し、図１１の学習装置では、教師データ生成部１３１が学習用データベース１４１とエンコーダ１４２で構成されているのに対して、図１９の学習装置では、教師データ生成部１３１が学習用データベース１４１で構成されている。また、図１１の学習装置では、生徒データ生成部１３２がデコーダ１４３で構成されているのに対して、図１９の学習装置では、生徒データ生成部１３２がエンコーダ１４２とデコーダ１４３で構成されている。
【０２６９】
ここで、図１６の復号装置１０２におけるクラス分類適応処理部１１３では、オーディオデータをMPEG1オーディオレイヤ１方式で符号化して復号することにより得られるサブバンドデータ（低音質サブバンドデータ）から予測タップを生成し、その予測タップを用いて、式（１）の積和演算を行うことにより、高音質オーディオデータが求められる。
【０２７０】
従って、式（１）の積和演算に用いるタップ係数としては、高音質オーディオデータを、教師データとするとともに、その高音質オーディオデータをMPEG1オーディオレイヤ１方式で符号化して復号することにより得られる低音質サブバンドデータを生徒データとして、その生徒データと教師データとを、式（１）によって関係付けるものを求めれば良い。
【０２７１】
そこで、図１９の学習装置では、教師データ生成部１３１は、学習用データベース１４１で構成されており、その学習用データベース１４１に記憶されているオーディオデータを読み出し、教師データとして、生徒データ生成部１３２と、学習部１３４の足し込み部１５４に供給する。
【０２７２】
生徒データ生成部１３２は、エンコーダ１４２とデコーダ１４３で構成されている。エンコーダ１４２は、教師データ生成部１３１から供給される教師データとしての高音質オーディオデータをMPEG1オーディオレイヤ１方式で符号化し、その符号化によって得られる符号化ビットストリームを、デコーダ１４３に供給する。デコーダ１４３は、エンコーダ１４２が出力する符号化ビットストリームをMPEG1オーディオレイヤ１方式で復号し、その復号の過程で得られるサブバンドデータ（低音質サブバンドデータ）とサイドインフォメーションを、生徒データとして、学習部１３４に供給する。さらに、デコーダ１４３は、符号化ビットストリームをMPEG1オーディオレイヤ１方式で復号する過程で得られるサイドインフォメーションを、コントローラ１３３に供給する。
【０２７３】
コントローラ１３３は、デコーダ１４３から供給されるサイドインフォメーションのフレームを注目フレームとして、その注目フレームにおいて、ビット割り当てが０ビットとされたサブバンド（ヌルサブバンド）がある場合には、そのヌルサブバンドを表すサブバンドナンバを、学習部１３４に供給する。また、コントローラ１３３は、注目フレームの高音質データとしての教師データを、順次、注目データとして選択し、その注目データのデータ位置を、学習部１３４に供給する。
【０２７４】
学習部１３４は、教師データ生成部１３１から供給される教師データとしての高音質オーディオデータと、生徒データ生成部１３２から供給される生徒データとしての低音質サブバンドデータ（およびサイドインフォメーション）との関係を学習することにより、式（１）により、教師データと生徒データとを関係付けるタップ係数を、クラスごとに求める。
【０２７５】
即ち、タップ生成部１５１と１５２は、コントローラ１３３が出力するデータ位置から、注目フレームにおいて注目データとなっている教師データを認識し、その注目データについて、生徒データ生成部１４３から供給される生徒データから、図１６のタップ生成部１２１と１２２における場合と同一のタップ構造の予測タップとクラスタップを、それぞれ生成する。そして、タップ生成部１５１は、注目データの予測タップを、足し込み部１５４に供給し、タップ生成部１５２は、注目データのクラスタップを、クラス分類部１５３に供給する。
【０２７６】
クラス分類部１５３は、タップ生成部１５２から供給されるクラスタップと、コントローラ１３３から供給される注目データのデータ位置と、注目フレームにおけるヌルサブバンドのサブバンドナンバに基づき、図１６のクラス分類部１２３における場合と同一のクラス分類を行う。クラス分類部１５３でクラス分類が行われることにより得られる注目データのクラスを表すクラスコードは、クラス分類部１５３から足し込み部１５４に供給される。
【０２７７】
足し込み部１５４およびタップ係数演算部１５５は、図１１における場合と同様に、教師データ生成部１３１から供給される教師データのうちの注目データと、タップ生成部１５１から供給される予測タップとを用い、教師データと生徒データとの関係を、クラス分類部１５３から供給されるクラスごとに学習することにより、クラスごとのタップ係数を求める。タップ係数記憶部１５６は、図１１における場合と同様に、タップ係数演算部１５５で求められるクラスごとのタップ係数を記憶する。
【０２７８】
次に、図２０フローチャートを参照して、図１９の学習装置において行われる、クラスごとのタップ係数を求める学習処理について説明する。
【０２７９】
まず最初に、教師データ生成部１３１は、学習用データベース１４１に記憶された高音質オーディオデータのフレームのうちの１フレームを注目フレームとし、ステップＳ１３１において、その注目フレームの教師データを生成する。即ち、教師データ生成部１３１は、学習用データベース１４１から、注目フレームの高音質オーディオデータを読み出し、教師データとして、生徒データ生成部１３２と、学習部１３４の足し込み部１５４に供給する。
【０２８０】
その後、ステップＳ１３２に進み、生徒データ生成部１３２は、教師データ生成部１３１から供給される注目フレームの高音質オーディオデータから生徒データを生成する。即ち、ステップＳ１３２では、生徒データ生成部１３２のデコーダ１４３が、注目フレームの高音質オーディオデータをMPEG1オーディオレイヤ１方式で符号化し、その符号化により得られる符号化ビットストリームを、デコーダ１４３に供給する。デコーダ１４３は、その符号化ビットストリームをMPEG1オーディオレイヤ１方式で復号し、その復号過程で得られる低音質サブバンドデータとサイドインフォメーションを、生徒データとして、学習部１３４に供給する。さらに、デコーダ１４３は、サイドインフォメーションを、コントローラ１３３にも供給する。
【０２８１】
そして、ステップＳ１３３に進み、コントローラ１３３は、注目フレームの高音質オーディオデータのデータ位置を表す変数ｉに、初期値としての、例えば０をセットし、ステップＳ１３４に進む。
【０２８２】
ステップＳ１３４では、コントローラ１３３は、注目フレームの、データ位置#mで特定される高音質オーディオデータとしての教師データs#mを、注目データとして選択する。さらに、ステップＳ１３４では、コントローラ１３３は、注目データs#mのデータ位置#mと、注目フレームにおけるヌルサブバンドのサブバンドナンバ#nを、学習部１３４に供給し、ステップＳ１３５に進む。
【０２８３】
ステップＳ１３５では、タップ生成部１５１と１５２が、コントローラ１３３からのデータ位置#mで特定される高音質オーディオデータとしての教師データs#mを、注目データs#mとして認識し、その注目データs#mについて、生徒データ生成部１３２から供給される生徒データとしての低音質サブバンドデータ（とサイドインフォメーション）を用い、図１６のタップ生成部１２１と１２２における場合と同一のタップ構造の予測タップとクラスタップを、それぞれ生成する。
【０２８４】
ステップＳ１３５で得られた予測タップは、タップ生成部１５１から足し込み部１５４に供給され、また、クラスタップは、タップ生成部１５１からクラス分類部１５３に供給され、その後、ステップＳ１３５からステップＳ１３６に進む。
【０２８５】
ステップＳ１３６では、クラス分類部１５３が、タップ生成部１５２から供給されるクラスタップの他、コントローラ１３３から供給される注目フレームにおけるヌルサブバンドのサブバンドナンバ、および注目データs#mのデータ位置#mに基づき、注目データについて、図１６のクラス分類部１２３と同一のクラス分類を行い、その結果得られる注目データのクラスを表すクラスコードを、足し込み部１５４に供給して、ステップＳ１３７に進む。
【０２８６】
ステップＳ１３７では、足し込み部１５４が、教師データ生成部１３１から供給される注目フレームの教師データのうちの注目データとなっているものを選択する。さらに、ステップＳ３７では、足し込み部１５４が、クラス分類部１５３から供給されるクラスコードが表す注目データのクラスごとに、タップ生成部１５１から供給される予測タップ、および注目データを対象とした、上述した式（８）における足し込みを行い、ステップＳ１３８に進む。
【０２８７】
ステップＳ１３８では、コントローラ１３３が、変数ｍが、１フレームにおける高音質オーディオデータのデータ位置の最大値である３８３に等しいかどうかを判定し、３８３に等しくないと判定した場合、ステップＳ１３９に進む。ステップＳ１３９では、コントローラ１３３は、変数ｍを１だけインクリメントして、ステップＳ１３４に戻り、以下、同様の処理が繰り返される。
【０２８８】
また、ステップＳ１３８において、変数ｍが、データ位置の最大値である３８３に等しいと判定された場合、即ち、注目フレームの高音質オーディオデータとしての教師データすべてを注目データとして、ステップＳ１３７の足し込みが行われた場合、ステップＳ１４０に進み、教師データ生成部１３１は、注目フレームの次のフレームの高音質オーディオデータが、学習用データベース１４１に記憶されているかどうかを判定する。ステップＳ１４０において、注目フレームの次のフレームの高音質オーディオデータが、学習用データベース１４１に記憶されていると判定された場合、その注目データの次のフレームを、新たに注目フレームとして、ステップＳ１３１に戻り、以下、同様の処理が繰り返される。
【０２８９】
また、ステップＳ１４０において、注目フレームの次のフレームの高音質オーディオデータが、学習用データベース１４１に記憶されていないと判定された場合、即ち、学習用データベース１４１に記憶された高音質オーディオデータのフレームすべてを注目フレームとして、ステップＳ１３７の足し込みが行われた場合、足し込み部１５４は、いままでのステップＳ１３７における足し込みによって、クラスごとに得られた式（８）の正規方程式を、タップ係数演算部１５５に供給して、ステップＳ１４１に進む。
【０２９０】
ステップＳ１４１では、タップ係数演算部１５５は、足し込み部１５４から供給される、各クラスごとの式（８）の正規方程式を解くことにより、クラスごとのタップ係数を求め、タップ係数記憶部１５６に供給して記憶させ、処理を終了する。
【０２９１】
以上のようにして、タップ係数記憶部１５６に記憶されたクラスごとのタップ係数が、図１６の復号装置１０２におけるタップ係数記憶部１２４に記憶されている。
【０２９２】
以上のように、図１９の学習装置では、高音質オーディオデータを、教師データとするとともに、その高音質オーディオデータをMPEG1オーディオレイヤ１方式で符号化して復号することにより得られるサブバンドデータ（さらには、サイドインフォメーション）を生徒データとして、その教師データと生徒データとの関係を学習することにより、式（１）によって、教師データと生徒データとを関係付けるタップ係数を、クラスごとに求めるようにしたので、図１６の復号装置１０２において、そのようなタップ係数を用いてクラス分類適応処理を行うことにより、教師データに相当する高音質のオーディオデータを復号することが可能となる。
【０２９３】
次に、図２１は、図５の復号装置１０２の第４の構成例を示している。なお、図中、図１６における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図２１の復号装置１０２は、基本的に、図１６における場合と同様に構成されている。
【０２９４】
但し、図１６の実施の形態では、デコーダ１１１が、符号化ビットストリームをMPEG1オーディオレイヤ１方式で復号する過程で得られる低音質サブバンドデータを出力するのに対して、図２１の実施の形態では、デコーダ１１１が、その低音質サブバンドデータに代えて、符号化ビットストリームをMPEG1オーディオレイヤ１方式で復号することにより得られる時間領域のオーディオデータ、即ち、低音質のオーディオデータ（以下、適宜、低音質オーディオデータという）を出力するようになっている。
【０２９５】
そして、図２１の復号装置１０２では、クラス分類適応処理部１１３が、デコーダ１１１が出力する時間領域の低音質オーディオデータを、時間領域の高音質オーディオデータに変換する。
【０２９６】
そのため、図２１の復号装置１０２では、クラス分類適応処理部１１３のタップ生成部１２１と１２２が、低音質サブバンドデータに代えて、デコーダ１１１が出力する低音質オーディオデータを用いて、予測タップとクラスタップを、それぞれ生成するようになっている。
【０２９７】
次に、図２２のフローチャートを参照して、図２１の復号装置１０２の処理（復号処理）について説明する。
【０２９８】
デコーダ１１１は、あるフレームの符号化ビットストリームを受信すると、そのフレームを、注目フレームとし、ステップＳ１５１において、その注目フレームについて、通常デコード処理を行う。
【０２９９】
即ち、本実施の形態では、符号化ビットストリームは、オーディオデータをMPEG1オーディオレイヤ１方式で符号化したものであり、ステップＳ１では、注目フレームの符号化ビットストリームが、MPEG1オーディオレイヤ１方式で復号される。
【０３００】
具体的には、ステップＳ１５１の通常デコード処理では、まず最初に、ステップＳ１６１において、デコーダ１１１は、注目フレームの符号化ビットストリームを、量子化サブバンドデータと、その他のデータであるサイドインフォメーションに分解し、注目フレームのサイドインフォメーションを、コントローラ１１２とクラス分類適応処理部１１３に供給する。そして、デコーダ１１１は、ステップＳ１６２において、注目フレームの量子化サブバンドデータを逆量子化し、さらに、ステップＳ１６３に進み、その逆量子化の結果得られるサブバンドデータを用いてサブバンド合成を行う。これにより、デコーダ１１１は、MPEG1オーディオレイヤ１方式で符号化されて復号されたオーディオデータ、即ち、低音質オーディオデータを得て、クラス分類適応処理部１１３に供給する。
【０３０１】
以上のステップＳ１６１乃至Ｓ１６３の処理によって、ステップＳ１５１の通常デコード処理が終了し、その後は、ステップＳ１５２に進む。
【０３０２】
ステップＳ１５２に進み、コントローラ１１２は、注目フレームの高音質オーディオデータのデータ位置を表す変数ｍに、初期値としての、例えば０をセットし、ステップＳ１５３に進む。
【０３０３】
ステップＳ１５３では、コントローラ１１２は、注目フレームの、データ位置#mで特定される高音質オーディオデータs#mを、注目データとして選択する。さらに、ステップＳ１５３では、コントローラ１１２は、注目データs#mを特定するデータ位置#mと、注目フレームにおけるヌルサブバンドのサブバンドナンバを、クラス分類適応処理部１１３に供給し、ステップＳ１５４に進む。
【０３０４】
ステップＳ１５４では、クラス分類適応処理部１１３が、注目データs#mを求めるクラス分類適応処理を行う。
【０３０５】
即ち、ステップＳ１５４のクラス分類適応処理では、まず最初に、ステップＳ１７１において、タップ生成部１２１と１２２が、コントローラ１１２からのデータ位置#mで特定される高音質オーディオデータs#mを、注目データs#mとして認識し、その注目データs#mについて、デコーダ１１１から供給される低音質オーディオデータ、さらには、必要に応じてサイドインフォメーションを用い、予測タップとクラスタップを生成する。
【０３０６】
ステップＳ１７１で得られた予測タップは、タップ生成部１２１から予測演算部１２５に供給され、また、クラスタップは、タップ生成部１２１からクラス分類部１２３に供給され、その後、ステップＳ１７１からステップＳ１７２に進む。
【０３０７】
ステップＳ１７２では、クラス分類部１２３が、タップ生成部１２２から供給されるクラスタップの他、コントローラ１１２から供給される注目フレームにおけるヌルサブバンドのサブバンドナンバ、および注目データs#mのデータ位置#mに基づいて、注目データをクラス分類し、その結果得られる注目データのクラスを表すクラスコードを、タップ係数記憶部１２４に供給して、ステップＳ１７３に進む。
【０３０８】
ステップＳ１７３では、タップ係数記憶部１２４が、そこに記憶されているクラスごとのタップ係数から、クラス分類部１２３から供給されるクラスコードが表す注目データs#mのクラスのタップ係数を読み出すことにより取得し、その注目データs#mのクラスのタップ係数を、予測演算部１２５に供給して、ステップＳ１７４に進む。
【０３０９】
ステップＳ１７４では、予測演算部１２５が、タップ生成部１２１から供給される注目データs#mについての予測タップと、タップ係数記憶部１２４から供給される注目データs#mのクラスのタップ係数とを用いて、式（１）の積和演算を行うことにより、注目データs#mを求める。
【０３１０】
以上のステップＳ１７１乃至Ｓ１７４の処理によって、ステップＳ１５４のクラス分類適応処理が終了し、ステップＳ１５５に進む。ステップＳ１５５では、コントローラ１１２が、変数ｍが、時間領域の１フレームのオーディオデータのデータ位置の最大値である３８３（図１７）に等しいかどうかを判定し、３８３に等しくないと判定した場合、ステップＳ１５６に進む。ステップＳ１５６では、コントローラ１１２は、変数ｍを１だけインクリメントして、ステップＳ１５３に戻り、以下、同様の処理が繰り返される。
【０３１１】
また、ステップＳ１５５において、変数ｍが、データ位置の最大値である３８３に等しいと判定された場合、即ち、注目フレームのすべての高音質オーディオデータを注目データとして、そのサンプル値が、クラス分類適応処理によって求められた場合、クラス分類適応処理部１１３の予測演算部１２５は、その注目フレームの高音質オーディオデータを出力する。
【０３１２】
従って、この場合も、図１８における場合と同様に、符号化装置１０１（図５）が出力する符号化ビットストリームのデータ量を増加させずに、高音質のオーディオデータを復号することができる。
【０３１３】
その後、ステップＳ１５７に進み、デコーダ１１１は、注目フレームの次のフレームの符号化ビットストリームが供給されたかどうかを判定する。ステップＳ１５７において、注目フレームの次のフレームの符号化ビットストリームが供給されたと判定された場合、その符号化ビットストリームが供給されたフレームを、新たに注目フレームとして、ステップＳ１５１に戻り、以下、同様の処理が繰り返される。
【０３１４】
また、ステップＳ１５７において、注目フレームの次のフレームの符号化ビットストリームが供給されていないと判定された場合、処理を終了する。
【０３１５】
次に、図２３は、図２１の復号装置１０２のタップ係数記憶部１２４に記憶させるクラスごとのタップ係数を学習する学習装置の一実施の形態の構成例を示している。なお、図中、図１９における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図２３の学習装置は、基本的に、図１９の学習装置と同様に構成されている。
【０３１６】
但し、図１９の学習装置では、生徒データ生成部１３２において、デコーダ１４３が、エンコーダ１４２が出力する符号化ビットストリームをMPEG1オーディオレイヤ１方式により復号し、その復号の結果得られる低音質オーディオデータを、低音質サブバンドデータに代えて、生徒データとして出力するようになっている。
【０３１７】
即ち、図２１の復号装置１０２におけるクラス分類適応処理部１１３では、オーディオデータをMPEG1オーディオレイヤ１方式で符号化して復号することにより得られるオーディオデータ（低音質オーディオデータ）から予測タップを生成し、その予測タップを用いて、式（１）の積和演算を行うことにより、高音質オーディオデータが求められる。
【０３１８】
従って、式（１）の積和演算に用いるタップ係数としては、高音質オーディオデータを、教師データとするとともに、その高音質オーディオデータをMPEG1オーディオレイヤ１方式で符号化して復号することにより得られる低音質オーディオデータを生徒データとして、その生徒データと教師データとを、式（１）によって関係付けるものを求めれば良い。
【０３１９】
そこで、図２３の学習装置では、上述したように、生徒データ生成部１３２が、低音質サブバンドデータに代えて、低音質オーディオデータを、生徒データとして出力するようになっている。
【０３２０】
次に、図２４フローチャートを参照して、図２３の学習装置において行われる、クラスごとのタップ係数を求める学習処理について説明する。
【０３２１】
まず最初に、教師データ生成部１３１は、学習用データベース１４１に記憶された高音質オーディオデータのフレームのうちの１フレームを注目フレームとし、ステップＳ１８１において、その注目フレームの教師データを生成する。即ち、教師データ生成部１３１は、学習用データベース１４１から、注目フレームの高音質オーディオデータを読み出し、教師データとして、生徒データ生成部１３２と、学習部１３４の足し込み部１５４に供給する。
【０３２２】
その後、ステップＳ１８２に進み、生徒データ生成部１３２は、教師データ生成部１３１から供給される注目フレームの高音質オーディオデータから生徒データを生成する。即ち、ステップＳ１８２では、生徒データ生成部１３２のデコーダ１４３が、注目フレームの高音質オーディオデータをMPEG1オーディオレイヤ１方式で符号化し、その符号化により得られる符号化ビットストリームを、デコーダ１４３に供給する。デコーダ１４３は、その符号化ビットストリームをMPEG1オーディオレイヤ１方式で復号し、その復号過程で得られる注目フレームのサイドインフォメーションと、その復号の結果得られる注目データの低音質オーディオデータを、生徒データとして、学習部１３４に供給する。さらに、デコーダ１４３は、サイドインフォメーションを、コントローラ１３３にも供給する。
【０３２３】
そして、ステップＳ１８３に進み、コントローラ１３３は、注目フレームの高音質オーディオデータのデータ位置を表す変数ｉに、初期値としての、例えば０をセットし、ステップＳ１８４に進む。ステップＳ１８４では、コントローラ１３３は、注目フレームの、データ位置#mで特定される高音質オーディオデータとしての教師データs#mを、注目データとして選択する。さらに、ステップＳ１８４では、コントローラ１３３は、注目データs#mのデータ位置#mと、注目フレームにおけるヌルサブバンドのサブバンドナンバ#nを、学習部１３４に供給し、ステップＳ１８５に進む。
【０３２４】
ステップＳ１８５では、タップ生成部１５１と１５２が、コントローラ１３３からのデータ位置#mで特定される高音質オーディオデータとしての教師データs#mを、注目データs#mとして認識し、その注目データs#mについて、生徒データ生成部１３２から供給される生徒データとしての低音質オーディオデータとサイドインフォメーションを用い、図２１のタップ生成部１２１と１２２における場合と同一のタップ構造の予測タップとクラスタップを、それぞれ生成する。
【０３２５】
ステップＳ１８５で得られた予測タップは、タップ生成部１５１から足し込み部１５４に供給され、また、クラスタップは、タップ生成部１５１からクラス分類部１５３に供給され、その後、ステップＳ１８５からステップＳ１８６に進む。
【０３２６】
ステップＳ１８６では、クラス分類部１５３が、タップ生成部１５２から供給されるクラスタップの他、コントローラ１３３から供給される注目フレームにおけるヌルサブバンドのサブバンドナンバ、および注目データs#mのデータ位置#mに基づき、注目データについて、図２１のクラス分類部１２３と同一のクラス分類を行い、その結果得られる注目データのクラスを表すクラスコードを、足し込み部１５４に供給して、ステップＳ１８７に進む。
【０３２７】
ステップＳ１８７では、足し込み部１５４が、教師データ生成部１３１から供給される注目フレームの教師データのうちの注目データとなっているものを選択する。さらに、ステップＳ１８７では、足し込み部１５４が、クラス分類部１５３から供給されるクラスコードが表す注目データのクラスごとに、タップ生成部１５１から供給される予測タップ、および注目データを対象とした、上述した式（８）における足し込みを行い、ステップＳ１８８に進む。
【０３２８】
ステップＳ１８８では、コントローラ１３３が、変数ｍが、１フレームにおける高音質オーディオデータのデータ位置の最大値である３８３に等しいかどうかを判定し、３８３に等しくないと判定した場合、ステップＳ１８９に進む。ステップＳ１８９では、コントローラ１３３は、変数ｍを１だけインクリメントして、ステップＳ１８４に戻り、以下、同様の処理が繰り返される。
【０３２９】
また、ステップＳ１８８において、変数ｍが、データ位置の最大値である３８３に等しいと判定された場合、即ち、注目フレームの高音質オーディオデータとしての教師データすべてを注目データとして、ステップＳ１８７の足し込みが行われた場合、ステップＳ１９０に進み、教師データ生成部１３１は、注目フレームの次のフレームの高音質オーディオデータが、学習用データベース１４１に記憶されているかどうかを判定する。ステップＳ１９０において、注目フレームの次のフレームの高音質オーディオデータが、学習用データベース１４１に記憶されていると判定された場合、その注目データの次のフレームを、新たに注目フレームとして、ステップＳ１８１に戻り、以下、同様の処理が繰り返される。
【０３３０】
また、ステップＳ１９０において、注目フレームの次のフレームの高音質オーディオデータが、学習用データベース１４１に記憶されていないと判定された場合、即ち、学習用データベース１４１に記憶された高音質オーディオデータのフレームすべてを注目フレームとして、ステップＳ１８７の足し込みが行われた場合、足し込み部１５４は、いままでのステップＳ１８７における足し込みによって、クラスごとに得られた式（８）の正規方程式を、タップ係数演算部１５５に供給して、ステップＳ１９１に進む。
【０３３１】
ステップＳ１９１では、タップ係数演算部１５５は、足し込み部１５４から供給される、各クラスごとの式（８）の正規方程式を解くことにより、クラスごとのタップ係数を求め、タップ係数記憶部１５６に供給して記憶させ、処理を終了する。
【０３３２】
以上のようにして、タップ係数記憶部１５６に記憶されたクラスごとのタップ係数が、図２１の復号装置１０２におけるタップ係数記憶部１２４に記憶されている。
【０３３３】
以上のように、図２３の学習装置では、高音質オーディオデータを、教師データとするとともに、その高音質オーディオデータをMPEG1オーディオレイヤ１方式で符号化して復号することにより得られる低音質オーディオデータ（さらには、サイドインフォメーション）を生徒データとして、その教師データと生徒データとの関係を学習することにより、式（１）によって、教師データと生徒データとを関係付けるタップ係数を、クラスごとに求めるようにしたので、図２１の復号装置１０２において、そのようなタップ係数を用いてクラス分類適応処理を行うことにより、教師データに相当する高音質のオーディオデータを復号することが可能となる。
【０３３４】
次に、図２５は、図５の復号装置１０２の第５の構成例を示している。
【０３３５】
図２５の実施の形態においては、復号装置１０２は、復号ブロック１６１とレベル補正部１６２で構成されている。
【０３３６】
復号ブロック１６１には、図５の符号化装置１０１が出力する符号化ビットストリームが供給されるようになっている。復号ブロック１６１は、例えば、図６、図１３、図１６、または図２１に示した復号装置１０２と同様に構成されており、そこに供給される符号化ビットストリームのフレームを、順次、注目フレームとし、その注目フレームの符号化ビットストリームを、時間領域のデータであるオーディオデータに復号して、レベル補正部１６２に供給する。さらに、復号ブロック１６１は、注目フレームの符号化ビットストリームの復号の過程で認識することができる注目フレームにおけるヌルサブバンドのサブバンドナンバも、レベル補正部１６２に供給する。
【０３３７】
ここで、注目フレームにおいては、必ずしも、ヌルサブバンドが存在するわけではなく、存在しない場合もある。このため、注目フレームにヌルバンドが存在しない場合、即ち、注目フレームのすべてのサブバンドに、１ビット以上が割り当てられている場合、復号ブロック１６１は、サブバンドナンバとして取り得ない値を、ヌルバンドが存在しない旨の情報として、レベル補正部１６２に供給する。なお、このことは、上述した図１６等の復号装置１０２においても同様である。
【０３３８】
レベル補正部１６２は、サブバンドナンバによって特定されるサブバンドの周波数成分に基づいて、復号ブロック１６１から供給される注目ブロックのオーディオデータを補正して出力する。
【０３３９】
即ち、図２６および図２７は、オーディオデータのパワースペクトルと静寂時の最小可聴限界を示している。
【０３４０】
ここで、図２６および図２７において、細い実線がオーディオデータのパワースペクトルを示し、太い実線が最小可聴限界を示している。
【０３４１】
MPEG1オーディオレイヤ１方式では、オーディオデータのパワースペクトルが最小可聴限界以上の各サブバンドについて、そのオーディオデータを人間が感知することができるレベルとしてのマスキングスレッショルドが求められる。ここで、図２６および図２７では、点線がマスキングスレッショルドを示している。
【０３４２】
さらに、MPEG1オーディオレイヤ１方式では、各サブバンドに、サブバンドデータを量子化することにより生じる量子化雑音が、マスキングスレッショルドより小さくなるように、ビット割り当てが行われる。
【０３４３】
従って、MPEG1オーディオレイヤ１方式では、最小可聴限界以下のレベルのサブバンドデータしかないサブバンドについては、ビット割り当てが０とされる。
【０３４４】
このことは、MPEG1オーディオレイヤ１方式において、ビット割り当てが０とされたサブバンド、即ち、ヌルサブバンドのパワーは、最小可聴限界以下であることを意味する。
【０３４５】
従って、例えば、図２５の復号ブロック１６１が出力する注目フレームのオーディオデータにおけるサブバンドsb#nがヌルサブバンドであるとした場合、そのヌルサブバンドsb#nに対応する周波数帯域成分は、図２６に示すように、最小可聴限界以下でなければ、復号ブロック１６１が出力する注目ブロックのオーディオデータは、図５の符号化装置１０１で符号化されたオーディオデータを精度良く再現したものとは言えない。
【０３４６】
即ち、ヌルサブバンドsb#nに対応する周波数帯域成分が、図２７に示すように、最小可聴限界以上である（より大きい）場合には、復号ブロック１６１が出力する注目ブロックのオーディオデータは、図５の符号化装置１０１で符号化されたオーディオデータを精度良く再現したものとは言えない。
【０３４７】
そこで、図２５のレベル補正部１６２は、復号ブロック１６１が出力するオーディオデータにおけるヌルサブバンドsb#nに対応する周波数帯域成分が、最小可聴限界以上である場合に、そのオーディオデータのレベルを補正し、これにより、図５の符号化装置１０１で符号化されたオーディオデータを精度良く再現したオーディオデータを求めて出力するようになっている。
【０３４８】
即ち、レベル補正部１６２は、ラッチ部１７１、ＦＦＴ部１７２、レベル調整部１７３、逆ＦＦＴ部１７４、選択部１７５、および判定部１７６から構成されており、ラッチ部１７１には、復号ブロック１６１が出力する注目フレームのオーディオデータが供給され、判定部１７６には、復号ブロック１６１が出力する注目ブロックにおけるヌルサブバンドを表すサブバンドナンバが供給されるようになっている。
【０３４９】
ラッチ部１７１は、復号ブロック１６１が出力する注目フレームのオーディオデータをラッチし、ＦＦＴ部１７２と選択部１７５に供給する。
【０３５０】
ＦＦＴ部１７２は、ラッチ部１７１から供給される注目フレームのオーディオデータをＦＦＴ処理し、これにより、パワースペクトルに変換して、判定部１７６とレベル調整部１７３に供給する。
【０３５１】
レベル調整部１７３は、判定部１７６の制御にしたがい、パワースペクトルのレベルを調整し、そのレベル調整が行われた後のパワースペクトル（以下、適宜、正規化パワースペクトルという）を、逆ＦＦＴ部１７４に供給する。
【０３５２】
逆ＦＦＴ部１７４は、レベル調整部１７３から供給される正規化パワースペクトルを逆ＦＦＴ処理し、これにより、時間領域のオーディオデータに変換する。ここで、正規化パワースペクトルを逆ＦＦＴすることにより得られる時間領域のオーディオデータを、以下、適宜、正規化オーディオデータという。
【０３５３】
選択部１７５には、上述したラッチ部１７１から、復号ブロック１６１が出力する注目フレームのオーディオデータが供給される他、逆ＦＦＴ部１７４から、注目フレームの正規化オーディオデータが供給されるようになっている。選択部１７５は、判定部１７６の制御にしたがい、ラッチ部１７１からの注目フレームのオーディオデータか、または逆ＦＦＴ部１７４からの注目フレームの正規化オーディオデータを選択し、その選択したオーディオデータを、注目フレームの最終的な復号結果として出力する。
【０３５４】
判定部１７６は、復号ブロック１６１から供給されるサブバンドナンバが表すサブバンド、即ち、ヌルサブバンドの最小可聴限界に応じた所定の閾値と、ＦＦＴ部１７２から供給される注目フレームのパワースペクトルのうちの、復号ブロック１６１から供給されるサブバンドナンバが表すヌルサブバンドのレベルとを比較し、その比較結果に基づいて、レベル調整部１７３を制御する。また、判定部１７６は、選択部１７５も制御する。
【０３５５】
次に、図２８のフローチャートを参照して、図２５のレベル補正部１６２の処理（レベル補正処理）について説明する。
【０３５６】
復号ブロック１６１が注目フレームのオーディオデータと、その注目フレームにおけるヌルサブバンドのサブバンドナンバを出力すると、ステップＳ２０１において、ラッチ部１７１は、復号ブロック１６１が出力する注目フレームのオーディオデータをラッチし、ステップＳ２０２に進む。
【０３５７】
ステップＳ２０２では、判定部１７６が、復号ブロック１６１から供給されるサブバンドナンバに基づいて、注目フレームにヌルサブバンドが存在するかどうかを判定する。
【０３５８】
ステップＳ２０２において、注目フレームにヌルサブバンドが存在しないと判定された場合、即ち、復号ブロック１６１が出力したサブバンドナンバが、１フレームのサブバンドナンバとして取り得る値ではない場合、ステップＳ２０３に進み、判定部１７６は、ラッチ部１７１の出力を選択するように、選択部１７５を制御する。これにより、さらに、ステップＳ２０３では、選択部１７５が、ラッチ部１７１でラッチされている注目フレームのオーディオデータを選択し、注目フレームの最終的な復号結果として出力して、ステップＳ２１０に進む。
【０３５９】
従って、注目フレームにヌルバンドが存在しない場合は、復号ブロック１６１が出力する注目フレームのオーディオデータが、そのまま、注目フレームの最終的な復号結果として出力される。
【０３６０】
一方、ステップＳ２０２において、注目フレームにヌルサブバンドが存在すると判定された場合、即ち、復号ブロック１６１が出力したサブバンドナンバが、１フレームのサブバンドナンバとして取り得る値である場合、ステップＳ２０４に進み、ＦＦＴ部１７２は、ラッチ部１７１でラッチされている注目フレームのオーディオデータをＦＦＴ処理し、これにより、注目フレームの時間領域のオーディオデータを、パワースペクトルに変換して、判定部１７６とレベル調整部１７３に供給し、ステップＳ２０５に進む。
【０３６１】
ステップＳ２０５では、判定部１７６が、復号ブロック１７６から供給されるサブバンドナンバが表すヌルサブバンドの最小可聴限界と、ＦＦＴ部１７２から供給される注目フレームのパワースペクトルのうちの、復号ブロック１７６から供給されるサブバンドナンバが表すヌルサブバンドの最大レベル（以下、適宜、ヌルサブバンドレベルという）とを比較し、ヌルサブバンドレベルが、そのヌルサブバンドの最小可聴限界に、所定のオフセット△を加えた所定の閾値εよりも大きいヌルサブバンドが存在するかどうかを判定する。
【０３６２】
即ち、１フレームには、１つのヌルサブバンドだけでなく、複数のヌルサブバンドが存在する場合がある。ステップＳ２０５では、注目フレームにおける１以上のヌルサブバンドの中に、ヌルサブバンドレベルが、そのヌルサブバンドの最小可聴限界に所定のオフセット△を加えた所定の閾値εよりも大きいヌルサブバンドがあるかどうかが判定される。
【０３６３】
ステップＳ２０５において、注目フレームに、ヌルサブバンドレベルが所定の閾値εよりも大きいヌルサブバンドがないと判定された場合、即ち、注目フレームにヌルサブバンドは存在するが、そのヌルサブバンドの最小可聴限界に所定のオフセット△を加えた所定の閾値εよりも大きいヌルサブバンドレベルのサブバンドは存在しない場合、注目ブロックのオーディオデータの補正は必要ないとして、ステップＳ２０３に進み、上述したように、選択部２０３は、ラッチ部１７１でラッチされている注目フレームのオーディオデータを選択し、注目フレームの最終的な復号結果として出力して、ステップＳ２１０に進む。
【０３６４】
また、ステップＳ２０５において、注目フレームに、ヌルサブバンドレベルが所定の閾値εよりも大きいヌルサブバンドがあると判定された場合、即ち、注目フレームに、そのヌルサブバンドの最小可聴限界を大きく超えるヌルサブバンドレベルのサブバンドが存在する場合、ステップＳ２０６に進み、判定部１７６は、ヌルサブバンドレベルと最小可聴限界との差分（［ヌルサブバンドレベル］−［最小可聴限界］が最大のヌルサブバンド（以下、適宜、最大ヌルサブバンドという）を検出する。
【０３６５】
即ち、注目フレームに、ヌルサブバンドレベルが所定の閾値εよりも大きいヌルサブバンドが１つだけある場合、ステップＳ２０５では、そのヌルサブバンドが、最大ヌルサブバンドとして検出される。また、注目フレームに、ヌルサブバンドレベルが所定の閾値εよりも大きいヌルサブバンドが複数ある場合、ステップＳ２０５では、その複数のヌルサブバンドの中から、ヌルサブバンドレベルと最小可聴限界との差分が最大のヌルサブバンドが、最大ヌルサブバンドとして検出される。
【０３６６】
その後、ステップＳ２０７に進み、判定部２０７は、レベル調整部１７３を制御することにより、ＦＦＴ部１７２が出力する注目フレームのパワースペクトルのレベルを、最大ヌルサブバンドのヌルサブバンドレベルに基づいて調整させる。即ち、これにより、レベル調整部１７３は、例えば、ＦＦＴ部１７２が出力する注目フレームのパワースペクトルの各サブバンドのパワーそれぞれを、最大ヌルサブバンドのヌルサブバンドレベルで除算することにより、あるいは、ＦＦＴ部１７２が出力する注目フレームのパワースペクトルの各サブバンドのパワーそれぞれから、最大ヌルサブバンドのヌルサブバンドレベルを減算することにより、注目フレームのパワースペクトルのレベルを調整した正規化パワースペクトルを求め、逆ＦＦＴ部１７４に供給する。
【０３６７】
そして、ステップＳ２０８に進み、逆ＦＦＴ部１７４は、レベル調整部１７３から供給される正規化パワースペクトルを逆ＦＦＴ処理し、これにより、時間領域のオーディオデータである正規化オーディオデータを求めて、選択部１７５に出力し、ステップＳ２０９に進む。
【０３６８】
ステップＳ２０９では、判定部１７６は、逆ＦＦＴ部１７４の出力を選択するように、選択部１７５を制御する。これにより、さらに、ステップＳ２０９では、選択部１７５が、逆ＦＦＴ部１７４が出力する注目フレームの正規化オーディオデータを選択し、注目フレームの最終的な復号結果として出力して、ステップＳ２１０に進む。
【０３６９】
従って、注目フレームに、そのヌルサブバンドの最小可聴限界を大きく超えるヌルサブバンドレベルのサブバンドが存在する場合には、復号ブロック１６１が出力する注目フレームのオーディオデータが補正され、これにより、ヌルサブバンドレベルが最小可聴限界を超えない正規化オーディオデータとされる。そして、この正規化オーディオデータが、注目フレームの最終的な復号結果として出力される。
【０３７０】
以上のように、ヌルサブバンドの最小可聴限界を大きく超えるヌルサブバンドレベルのサブバンドが存在する場合に、復号ブロック１６１が出力するオーディオデータを補正するようにしたので、符号化装置１０１（図５）で符号化されたオーディオデータにより近い復号結果を得ることが可能となる。
【０３７１】
ところで、図５の符号化装置１０１では、オーディオデータが、MPEG1オーディオレイヤ１方式で符号化されるため、時間領域のオーディオデータは、サブバンド分割によって、同一周波数帯域幅のサブバンドに分割される。従って、各サブバンドの周波数帯域幅は、同一である。
【０３７２】
サブバンド分割では、このような周波数帯域幅が同一のサブバンドへの分割の他、例えば、いわゆるログスケール(log scale)等で周波数帯域幅が増加するサブバンドへの分割を行うことも可能である。
【０３７３】
そこで、例えば、２の累乗で周波数帯域幅が増加するサブバンド分割を考えると、即ち、図２９に示すように、サブバンドsb0の周波数帯域幅がＢ×２⁰、サブバンドsb1の周波数帯域幅がＢ×２¹，・・・，サブバンドSb#nの周波数帯域幅がＢ×２ⁿ，・・・となるサブバンド分割を考えると、各サブバンドのサブバンドデータのサンプル数は、そのサブバンドの周波数帯域幅に比例した数になる。
【０３７４】
即ち、同一周波数帯域幅のサブバンドへのサブバンド分割では、各サブバンドの周波数帯域幅は同一幅なので、サブバンドデータのサンプル数も、各サブバンドで同一になるが、２の累乗で周波数帯域幅が増加するサブバンド分割では、各サブバンドの周波数帯域幅が異なるので、サブバンドデータのサンプル数も、各サブバンドで異なる数になる。
【０３７５】
この場合、例えば、図７で説明したように、注目サブバンドsb#nと、その注目サブバンドsb#nの１／２倍の周波数帯域のローサブバンドsb#nL、および２倍の周波数帯域のハイサブバンドsb#nHを、タップ用サブバンドとして選択し、そのタップ用サブバンドのすべてのサブバンドデータを、タップとすることとすると、注目サブバンドがいずれのサブバンドであるかによって、タップ数が変化してしまい、クラス分類適応処理を行うにあたり、あまり望ましくない。
【０３７６】
そこで、符号化装置１０１（図５）において、２の累乗で周波数帯域幅が増加するサブバンド分割が行われる場合には、上述のようなタップ数の変化を防止するために、タップ用サブバンドとされたサブバンドsb#nについては、例えば、図２９に示すように、そのサブバンドデータのうちの２ⁿサンプルごとのサブバンドデータをタップとするようにすることができる。この場合、例えば、サブバンドsb1がタップ用サブバンドとして選択されたときには、そのサブバンドデータのうちの２サンプルごとのサブバンドが、タップとされることになる。
【０３７７】
以上のように、タップ用サブバンドとされたサブバンドsb#nについて、そのサブバンドデータのうちの２ⁿサンプルごとのサブバンドデータをタップとするようにすることで、タップ用サブバンドとされたサブバンドそれぞれからは、同一の数のサブバンドデータがタップとされることとなり、その結果、注目サブバンドがいずれのサブバンドであるかによるタップ数の変化を防止することが可能となる。
【０３７８】
ここで、上述の場合には、タップ用サブバンドとされたサブバンドsb#nについて、そのサブバンドデータのうちの２ⁿサンプルごとのサブバンドデータをタップとするようにしたが、その他、例えば、２ⁿサンプルごとのサブバンドデータの平均値などをタップとするようにすることも可能である。
【０３７９】
なお、周波数帯域幅が同一のサブバンドへのサブバンド分割では、上述したように、注目サブバンドsb#nのサブバンドナンバ#nから、注目サブバンドsb#nの１／２倍の周波数帯域のローサブバンドsb#nLと、注目サブバンドsb#nの２倍の周波数帯域のハイサブバンドsb#nHを特定することができるが、２の累乗で周波数帯域幅が増加するサブバンド分割が行われる場合には、注目サブバンドsb#nの１／２倍の周波数帯域のローサブバンドsb#nLと、注目サブバンドsb#nの２倍の周波数帯域のハイサブバンドsb#nHは、例えば、次のようにして特定される。
【０３８０】
即ち、注目サブバンドsb#nの中心周波数（周波数帯域幅の最小周波数と最大周波数の平均値）が求められ、例えば、その中心周波数の１／２倍または２倍の周波数に最も近い中心周波数のサブバンドが、それぞれ、ローサブバンドsb#nLまたはハイサブバンドsb#nHとされる。
【０３８１】
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【０３８２】
そこで、図３０は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【０３８３】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク２０５やＲＯＭ２０３に予め記録しておくことができる。
【０３８４】
あるいはまた、プログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体２１１に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体２１１は、いわゆるパッケージソフトウエアとして提供することができる。
【０３８５】
なお、プログラムは、上述したようなリムーバブル記録媒体２１１からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部２０８で受信し、内蔵するハードディスク２０５にインストールすることができる。
【０３８６】
コンピュータは、CPU(Central Processing Unit)２０２を内蔵している。CPU２０２には、バス２０１を介して、入出力インタフェース２１０が接続されており、CPU２０２は、入出力インタフェース２１０を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部２０７が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)２０３に格納されているプログラムを実行する。あるいは、また、CPU２０２は、ハードディスク２０５に格納されているプログラム、衛星若しくはネットワークから転送され、通信部２０８で受信されてハードディスク２０５にインストールされたプログラム、またはドライブ２０９に装着されたリムーバブル記録媒体２１１から読み出されてハードディスク２０５にインストールされたプログラムを、RAM(Random Access Memory)２０４にロードして実行する。これにより、CPU２０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU２０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース２１０を介して、LCD(Liquid Crystal Display)やスピーカ等で構成される出力部２０６から出力、あるいは、通信部２０８から送信、さらには、ハードディスク２０５に記録等させる。
【０３８７】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。
【０３８８】
また、プログラムは、１のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【０３８９】
なお、本実施の形態では、注目サブバンドsb#nと、その注目サブバンドsb#nの１／２倍の周波数帯域のローサブバンドsb#nLと２倍の周波数帯域のハイサブバンドsb#nHを、タップ用サブバンドとして選択するようにしたが、ローサブバンドsb#nLとハイサブバンドsb#nHとしては、その他、例えば、１／３倍と３倍や、１／９倍と９倍、１／５倍と５倍の周波数帯域などの１／ＰとＰのＮ乗倍のサブバンドを採用することが可能である（Ｐ，Ｎは、正の整数）。
【０３９０】
また、本実施の形態では、符号化装置１０１（図５）において、オーディオデータをMPEG1オーディオレイヤ１方式で符号化するようにしたが、オーディオデータの符号化方式としては、MPEG1オーディオレイヤ１方式以外に、例えば、前述したMPEG1オーディオレイヤ２，３や、MPEG2オーディオAAC、その他、時間領域のオーディオデータを周波数領域のオーディオデータに変換する周波数変換を利用するものを採用することが可能である。
【０３９１】
ここで、符号化装置１０１において、周波数変換によって、時間領域のオーディオデータを、例えば、MDCT係数に変換する場合には、復号装置１０２のクラス分類適応処理部１１３では、例えば、MDCTの基底のMDCT係数すべてによって、予測タップを構成するとともに、MDCT係数の変化パターンやレベルなどに基づいてクラス分類を行うようにすることができる。また、符号化装置１０１において、周波数変換としてＦＦＴを採用し、時間領域のオーディオデータを、周波数領域のオーディオデータとしての周波数スペクトルに変換する場合には、復号装置１０２のクラス分類適応処理部１１３では、例えば、ＦＦＴによって得られる周波数スペクトルを表す複素数を構成する実数部や虚数部から予測タップを構成するとともに、周波数スペクトルの変化パターンや各周波数帯域ごとのパワー（周波数スペクトルを表す複素数の平方和の平方根）などに基づいてクラス分類を行うようにすることができる。
【０３９２】
【発明の効果】
以上の如く、本発明によれば、符号化ビットストリームのデータ量を増加させずに、高音質のオーディオデータを復号することが可能となる。
【図面の簡単な説明】
【図１】 MPEG1オーディオレイヤ１方式のエンコーダの構成例を示すブロック図である。
【図２】 MPEG1オーディオレイヤ１方式のデコーダの構成例を示すブロック図である。
【図３】 MPEG2オーディオAAC方式のエンコーダの構成例を示すブロック図である。
【図４】 MPEG2オーディオAAC方式のデコーダの構成例を示すブロック図である。
【図５】本発明を適用したデータ処理装置の一実施の形態の構成例を示すブロック図である。
【図６】復号装置１０２の第１の構成例を示すブロック図である。
【図７】タップ構造の例を説明する図である。
【図８】タップ構造の例を説明する図である。
【図９】タップ構造の例を説明する図である。
【図１０】復号装置１０２の処理を説明するフローチャートである。
【図１１】タップ係数を学習する学習装置の第１の構成例を示すブロック図である。
【図１２】学習装置の処理を説明するフローチャートである。
【図１３】復号装置１０２の第２の構成例を示すブロック図である。
【図１４】復号装置１０２の処理を説明するフローチャートである。
【図１５】学習装置の処理を説明するフローチャートである。
【図１６】復号装置１０２の第３の構成例を示すブロック図である。
【図１７】タップ構造の例を説明する図である。
【図１８】復号装置１０２の処理を説明するフローチャートである。
【図１９】学習装置の第２の構成例を示すブロック図である。
【図２０】学習装置の処理を説明するフローチャートである。
【図２１】復号装置１０２の第４の構成例を示すブロック図である。
【図２２】復号装置１０２の処理を説明するフローチャートである。
【図２３】学習装置の第４の構成例を示すブロック図である。
【図２４】学習装置の処理を説明するフローチャートである。
【図２５】復号装置１０２の第５の構成例を示すブロック図である。
【図２６】オーディオデータのパワースペクトルと静寂時の最小可聴限界を示す図である。
【図２７】オーディオデータのパワースペクトルと静寂時の最小可聴限界を示す図である。
【図２８】レベル補正部１６２の処理を説明するフローチャートである。
【図２９】ログスケールでのサブバンド分割を示す図である。
【図３０】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
１０１符号化装置，１０２復号装置，１０３伝送媒体，１０４記録媒体，１１１デコーダ，１１２コントローラ，１１３クラス分類適応処理部，１１４サブバンド合成部，１２１，１２２タップ生成部，１２３クラス分類部，１２４タップ係数記憶部，１２５予測演算部，１３１教師データ生成部，１３２生徒データ生成部，１３３コントローラ，１３４学習部，１４１学習用データベース，１４２エンコーダ，１４３デコーダ，１５１，１５２タップ生成部，１５３クラス分類部，１５４足し込み部，１５５タップ係数演算部，１５６タップ係数記憶部，１６１復号ブロック，１６２レベル補正部，１７１ラッチ部，１７２ＦＦＴ部，１７３レベル調整部，１７４逆ＦＦＴ部，１７５選択部，１７６判定部，２０１バス，２０２ CPU，２０３ ROM，２０４ RAM，２０５ハードディスク，２０６出力部，２０７入力部，２０８通信部，２０９ドライブ，２１０入出力インタフェース，２１１リムーバブル記録媒体

Claims

時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第１のデータを、前記第１のデータよりも高品質のデータである第２のデータに変換するデータ処理装置であって、
前記第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、前記注目データに近接する複数のデータからなるクラスタップを、前記第１のデータから抽出するクラスタップ抽出手段と、
前記クラスタップを構成する複数のデータの値から、前記クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、前記注目データをクラス分類するクラス分類手段と、
前記注目データを求める積和演算に用いる、前記注目データに近接する複数のデータからなる予測タップを、前記第１のデータから抽出する予測タップ抽出手段と、
学習の教師となる、前記第２のデータに対応する教師データと、前記学習の生徒となる、前記第１のデータに対応する生徒データを用い、注目している前記教師データの予測値を、その教師データに近接する複数の前記生徒データとタップ係数との積和演算により求め、注目している前記教師データと、求められた前記予測値との差分値である予測誤差を最小にする学習を、前記１以上のクラスごとに行うことにより求められたタップ係数から、前記注目データのクラスのタップ係数を取得する取得手段と、
前記注目データのクラスのタップ係数と、前記予測タップとを用いた積和演算を行うことにより前記注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータである前記第１のデータを、前記第１のデータにおいてビット割り当てが０とされた前記第１のデータにおいて抜けている周波数帯域のオーディオデータである前記第２のデータに変換する予測演算手段と
を備えることを特徴とするデータ処理装置。
前記予測演算手段は、前記第１のデータを、複数の周波数帯域それぞれごとのオーディオデータである前記第２のデータに変換する
ことを特徴とする請求項１に記載のデータ処理装置。
前記第２のデータである前記複数の周波数帯域それぞれごとのオーディオデータを合成して、時間領域のオーディオデータを求める合成手段をさらに備える
ことを特徴とする請求項２に記載のデータ処理装置。
前記第２のデータは、時間領域または周波数領域のオーディオデータであり、
前記第２のデータが周波数領域のオーディオデータである場合には、その周波数領域のオーディオデータを、時間領域のオーディオデータに変換する変換手段をさらに備える
ことを特徴とする請求項１に記載のデータ処理装置。
前記第２のデータである時間領域のオーディオデータ、または前記第２のデータである周波数領域のオーディオデータを変換して得られる時間領域のオーディオデータを補正する補正手段をさらに備える
ことを特徴とする請求項４に記載のデータ処理装置。
時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第１のデータを、前記第１のデータよりも高品質のデータである第２のデータに変換するデータ処理方法であって、
前記第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、前記注目データに近接する複数のデータからなるクラスタップを、前記第１のデータから抽出するクラスタップ抽出ステップと、
前記クラスタップを構成する複数のデータの値から、前記クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、前記注目データをクラス分類するクラス分類ステップと、
前記注目データを求める積和演算に用いる、前記注目データに近接する複数のデータからなる予測タップを、前記第１のデータから抽出する予測タップ抽出ステップと、
学習の教師となる、前記第２のデータに対応する教師データと、前記学習の生徒となる、前記第１のデータに対応する生徒データを用い、注目している前記教師データの予測値を、その教師データに近接する複数の前記生徒データとタップ係数との積和演算により求め、注目している前記教師データと、求められた前記予測値との差分値である予測誤差を最小にする学習を、前記１以上のクラスごとに行うことにより求められたタップ係数から、前記注目データのクラスのタップ係数を取得する取得ステップと、
前記注目データのクラスのタップ係数と、前記予測タップとを用いた積和演算を行うことにより前記注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータである前記第１のデータを、前記第１のデータにおいてビット割り当てが０とされた前記第１のデータにおいて抜けている周波数帯域のオーディオデータである前記第２のデータに変換する予測演算ステップと
を備えることを特徴とするデータ処理方法。
時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第１のデータを、前記第１のデータよりも高品質のデータである第２のデータに変換するデータ処理を、コンピュータに行わせるプログラムであって、
前記第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、前記注目データに近接する複数のデータからなるクラスタップを、前記第１のデータから抽出するクラスタップ抽出ステップと、
前記クラスタップを構成する複数のデータの値から、前記クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、前記注目データをクラス分類するクラス分類ステップと、
前記注目データを求める積和演算に用いる、前記注目データに近接する複数のデータからなる予測タップを、前記第１のデータから抽出する予測タップ抽出ステップと、
学習の教師となる、前記第２のデータに対応する教師データと、前記学習の生徒となる、前記第１のデータに対応する生徒データを用い、注目している前記教師データの予測値を、その教師データに近接する複数の前記生徒データとタップ係数との積和演算により求め、注目している前記教師データと、求められた前記予測値との差分値である予測誤差を最小にする学習を、前記１以上のクラスごとに行うことにより求められたタップ係数から、前記注目データのクラスのタップ係数を取得する取得ステップと、
前記注目データのクラスのタップ係数と、前記予測タップとを用いた積和演算を行うことにより前記注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータである前記第１のデータを、前記第１のデータにおいてビット割り当てが０とされた前記第１のデータにおいて抜けている周波数帯域のオーディオデータである前記第２のデータに変換する予測演算ステップと
をコンピュータに実行させるためのプログラム。
時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第１のデータを、前記第１のデータよりも高品質のデータである第２のデータに変換するデータ処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
前記第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、前記注目データに近接する複数のデータからなるクラスタップを、前記第１のデータから抽出するクラスタップ抽出ステップと、
前記クラスタップを構成する複数のデータの値から、前記クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、前記注目データをクラス分類するクラス分類ステップと、
前記注目データを求める積和演算に用いる、前記注目データに近接する複数のデータからなる予測タップを、前記第１のデータから抽出する予測タップ抽出ステップと、
学習の教師となる、前記第２のデータに対応する教師データと、前記学習の生徒となる、前記第１のデータに対応する生徒データを用い、注目している前記教師データの予測値を、その教師データに近接する複数の前記生徒データとタップ係数との積和演算により求め、注目している前記教師データと、求められた前記予測値との差分値である予測誤差を最小にする学習を、前記１以上のクラスごとに行うことにより求められたタップ係数から、前記注目データのクラスのタップ係数を取得する取得ステップと、
前記注目データのクラスのタップ係数と、前記予測タップとを用いた積和演算を行うことにより前記注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータである前記第１のデータを、前記第１のデータにおいてビット割り当てが０とされた前記第１のデータにおいて抜けている周波数帯域のオーディオデータである前記第２のデータに変換する予測演算ステップと
をコンピュータに実行させるためのプログラムが記録されている
ことを特徴とする記録媒体。
時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第１のデータを、前記第１のデータよりも高品質のデータである第２のデータに変換するのに用いられるタップ係数を学習するデータ処理装置であって、
前記第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、前記注目データに近接する複数のデータからなるクラスタップを、前記第１のデータから抽出するクラスタップ抽出手段と、
前記クラスタップを構成する複数のデータの値から、前記クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、前記注目データをクラス分類するクラス分類手段と、
前記タップ係数の学習の教師となる、前記第２のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、前記注目データに近接する複数のデータからなる予測タップを、前記学習の生徒となる、前記第１のデータに対応する生徒データから抽出する予測タップ抽出手段と、
前記注目データと予測タップを用い、前記注目データの予測値を、その注目データに近接する複数の前記生徒データとタップ係数との積和演算により求め、前記注目データと、求められた前記予測値との差分値である予測誤差を最小にする学習を、前記１以上のクラスごとに行うことにより、前記タップ係数を求める学習手段と
を備え、
前記第１のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、
前記学習手段は、前記第１のデータを、前記第１のデータにおいてビット割り当てが０とされた前記第１のデータにおいて抜けている周波数帯域のオーディオデータである前記第２のデータに変換するのに用いられる前記タップ係数を求める
ことを特徴とするデータ処理装置。
前記学習手段は、前記第１のデータを、複数の周波数帯域それぞれごとのオーディオデータである前記第２のデータに変換するのに用いられる前記タップ係数を求める
ことを特徴とする請求項９に記載のデータ処理装置。
時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第１のデータを、前記第１のデータよりも高品質のデータである第２のデータに変換するのに用いられるタップ係数を学習するデータ処理方法であって、
前記第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、前記注目データに近接する複数のデータからなるクラスタップを、前記第１のデータから抽出するクラスタップ抽出ステップと、
前記クラスタップを構成する複数のデータの値から、前記クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、前記注目データをクラス分類するクラス分類ステップと、
前記タップ係数の学習の教師となる、前記第２のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、前記注目データに近接する複数のデータからなる予測タップを、前記学習の生徒となる、前記第１のデータに対応する生徒データから抽出する予測タップ抽出ステップと、
前記注目データと予測タップを用い、前記注目データの予測値を、その注目データに近接する複数の前記生徒データとタップ係数との積和演算により求め、前記注目データと、求められた前記予測値との差分値である予測誤差を最小にする学習を、前記１以上のクラスごとに行うことにより、前記タップ係数を求める学習ステップと
を備え、
前記第１のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、
前記学習ステップにおいて、前記第１のデータにおいてビット割り当てが０とされた前記第１のデータにおいて抜けている周波数帯域のオーディオデータである前記第２のデータに変換するのに用いられる前記タップ係数が求められる
ことを特徴とするデータ処理方法。
時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第１のデータを、前記第１のデータよりも高品質のデータである第２のデータに変換するのに用いられるタップ係数を学習するデータ処理を、コンピュータに行わせるプログラムであって、
前記第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、前記注目データに近接する複数のデータからなるクラスタップを、前記第１のデータから抽出するクラスタップ抽出ステップと、
前記クラスタップを構成する複数のデータの値から、前記クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、前記注目データをクラス分類するクラス分類ステップと、
前記タップ係数の学習の教師となる、前記第２のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、前記注目データに近接する複数のデータからなる予測タップを、前記学習の生徒となる、前記第１のデータに対応する生徒データから抽出する予測タップ抽出ステップと、
前記注目データと予測タップを用い、前記注目データの予測値を、その注目データに近接する複数の前記生徒データとタップ係数との積和演算により求め、前記注目データと、求められた前記予測値との差分値である予測誤差を最小にする学習を、前記１以上のクラスごとに行うことにより、前記タップ係数を求める学習ステップと
をコンピュータに実行させ、
前記第１のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、
前記学習ステップにおいて、前記第１のデータを、前記第１のデータにおいてビット割り当てが０とされた前記第１のデータにおいて抜けている周波数帯域のオーディオデータである前記第２のデータに変換するのに用いられる前記タップ係数が求められる
ことを特徴とするプログラム。
時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第１のデータを、前記第１のデータよりも高品質のデータである第２のデータに変換するのに用いられるタップ係数を学習するデータ処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
前記第２のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、前記注目データに近接する複数のデータからなるクラスタップを、前記第１のデータから抽出するクラスタップ抽出ステップと、
前記クラスタップを構成する複数のデータの値から、前記クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、前記注目データをクラス分類するクラス分類ステップと、
前記タップ係数の学習の教師となる、前記第２のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、前記注目データに近接する複数のデータからなる予測タップを、前記学習の生徒となる、前記第１のデータに対応する生徒データから抽出する予測タップ抽出ステップと、
前記注目データと予測タップを用い、前記注目データの予測値を、その注目データに近接する複数の前記生徒データとタップ係数との積和演算により求め、前記注目データと、求められた前記予測値との差分値である予測誤差を最小にする学習を、前記１以上のクラスごとに行うことにより、前記タップ係数を求める学習ステップと
をコンピュータに実行させ、
前記第１のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが０とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、
前記学習ステップにおいて、前記第１のデータを、前記第１のデータにおいてビット割り当てが０とされた前記第１のデータにおいて抜けている周波数帯域のオーディオデータである前記第２のデータに変換するのに用いられる前記タップ係数が求められる
プログラムが記録されている
ことを特徴とする記録媒体。