JP4218271B2 - データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体 - Google Patents

データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体 Download PDF

Info

Publication number
JP4218271B2
JP4218271B2 JP2002210899A JP2002210899A JP4218271B2 JP 4218271 B2 JP4218271 B2 JP 4218271B2 JP 2002210899 A JP2002210899 A JP 2002210899A JP 2002210899 A JP2002210899 A JP 2002210899A JP 4218271 B2 JP4218271 B2 JP 4218271B2
Authority
JP
Japan
Prior art keywords
data
class
tap
subband
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002210899A
Other languages
English (en)
Other versions
JP2004053891A5 (ja
JP2004053891A (ja
Inventor
哲二郎 近藤
勉 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2002210899A priority Critical patent/JP4218271B2/ja
Publication of JP2004053891A publication Critical patent/JP2004053891A/ja
Publication of JP2004053891A5 publication Critical patent/JP2004053891A5/ja
Application granted granted Critical
Publication of JP4218271B2 publication Critical patent/JP4218271B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体に関し、特に、音質の良いオーディオデータを提供することができるようにするデータ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体に関する。
【0002】
【従来の技術】
オーディオデータの符号化方法としては、知覚符号化技術または聴覚心理符号化技術により、データ量を削減するものが知られている。知覚符号化技術または聴覚心理符号化技術による符号化方法は、簡単には、人間が知覚することのできる音圧と時間との関係、または周波数と音量との関係を利用して、(ほとんど)知覚することができないオーディオデータは、符号化のためのビット割り当てを0としてマスクする、つまり符号化の対象としないもので、そのような符号化方法としては、例えば、MPEG(Moving Picture Experts Group)オーディオがある。
【0003】
ここで、オーディオデータの符号化方法としてのMPEGオーディオ(MPEG Audio)には、MPEG1オーディオレイヤ1,2,3(MPEG1 Audio Layer1, Layer2, Layer3)や、MPEG2オーディオAAC(MPEG2 Audio Advansed Audio Coding)などがある。
【0004】
なお、MPEGオーディオについては、例えば、「最新MPEG教科書」、株式会社アスキー発行などに、その詳細が記載されている。また、MPEG1オーディオレイヤ3については、例えば、特開2000-323993号公報、特開2001-102932号公報、特許2923406号公報などに、MPEG2オーディオAACについては、例えば、特開平11-259096号公報などにも記載されている。
【0005】
図1は、MPEG1オーディオレイヤ1方式により、オーディオデータを符号化するエンコーダの構成例を示している。
【0006】
エンコーダには、16ビット直線量子化されたPCM(Pulse Code Modulation)信号としての時間領域のオーディオデータが入力される。エンコーダに入力されたオーディオデータは、サブバンド分割部1と聴覚心理分析部2に供給される。
【0007】
サブバンド分割部1は、例えば、ポリフェーズフィルタバンクで構成され、そのポリフェーズフィルタバンクでオーディオデータをフィルタリングすることにより、オーディオデータをサブバンド符号化(サブバンド合成)する。即ち、サブバンド分割部1は、そこに供給されるオーディオデータの384サンプルを1フレームとしてサブバンド符号化することにより、その1フレームの時間領域のオーディオデータを、32の同一周波数帯域幅のバンド(サブバンド)の周波数領域のオーディオデータとする。
【0008】
ここで、サブバンド分割部1では、384サンプルのオーディオデータが、32のサブバンドのオーディオデータとされるので、1サブバンドのサンプル数は、12(=384/32)サンプルとなる。
【0009】
なお、MPEG1オーディオレイヤ2方式でも、MPEG1オーディオレイヤ1方式と同様に、オーディオデータは、ポリフェーズフィルタバンクによるフィルタリングによってサブバンド符号化されることにより、32のサブバンドのオーディオデータとされる。また、MPEG1オーディオレイヤ3方式では、オーディオデータに対しては、ポリフェーズフィルタバンクによるフィルタリングが行われる他、MDCT(Modified Discrete Cosine Transform)演算、および折り返し歪み削減バタフライ演算が施され、やはり、32バンドの周波数領域のオーディオデータとされる。
【0010】
サブバンド分割部1で得られた32のサブバンドの周波数領域のオーディオデータ(以下、適宜、サブバンドデータという)は、聴覚心理分析部2と量子化/符号化部4に供給される。
【0011】
聴覚心理分析部2は、聴覚心理モデル計算部11とスケーリングファクタ計算部12などで構成され、信号対マスク比(Signal to Mask Ratio)やスケーリングファクタなどを求める。
【0012】
即ち、聴覚心理モデル計算部11は、所定の聴覚心理モデルを用い、オーディオデータをFFT(Fast Fourier Transform)分析したり、各サブバンドの音圧を計算することなどによって、各サブバンドについて、そのサブバンドにおけるオーディオデータの最大振幅レベルと、人間の聴覚または知覚特性に基づいてマスキングされる最大振幅レベル(マスキング閾値)との比である信号対マスク比を計算し、ビット割り当て部3に供給する。また、スケーリングファクタ計算部12は、各サブバンドのサブバンドデータなどに基づき、各サブバンドのスケーリングファクタを計算し、ビット割り当て部3に供給する。
【0013】
ビット割り当て部3は、聴覚心理分析部2(の聴覚心理モデル計算部11)から供給される信号対マスク比などに基づいて、サブバンド分割部1が出力する各サブバンドのサブバンドデータに対するビット割り当てを決定し、そのビット割り当てを表す情報(ビット割り当て情報)を、量子化/符号化部4とビットストリーム生成部5に供給する。さらに、ビット割り当て部3は、聴覚心理分析部2(のスケーリングファクタ計算部12)から供給されるスケーリングファクタを、量子化/符号化部4とビットストリーム生成部5に供給する。
【0014】
量子化/符号化部4は、サブバンド分割部1から供給される各サブバンドのサブバンドデータを、ビット割り当て部3から供給されるスケーリングファクタで正規化する。さらに、量子化/符号化部4は、その正規化後の各サブバンドのサブバンドデータを、ビット割り当て部3から供給されるビット割り当て情報に対応する量子化ステップで量子化し、ビットストリーム生成部5に供給する。
【0015】
ここで、MPEG1オーディオレイヤ2方式でも、MPEG1オーディオレイヤ1方式と同様に、量子化/符号化部4において、各サブバンドのサブバンドデータが量子化される。また、MPEG1オーディオレイヤ3方式では、量子化/符号化部4において、各サブバンドのサブバンドデータが量子化された後、ハフマン符号化される。
【0016】
ビットストリーム生成部5は、量子化/符号化部4から供給される、量子化されたサブバンドデータ(以下、適宜、量子化サブバンドデータという)、並びにビット割り当て部3から供給されるビット割り当て情報およびスケールファクタを多重化し、さらに、ヘッダを付加することにより、オーディオデータを符号化した符号化ビットストリームを生成して出力する。
【0017】
次に、図2は、オーディオデータをMPEG1オーディオレイヤ1方式で符号化した符号化ビットストリーム、即ち、図1のエンコーダが出力する符号化ビットストリームを復号するデコーダの構成例を示している。
【0018】
符号化ビットストリームは、ビットストリーム分解部21に供給される。ビットストリーム分解部21は、符号化ビットストリームを、ヘッダ、量子化サブバンドデータ、ビット割り当て情報、およびスケールファクタに分解し、再構成部22に供給する。
【0019】
再構成部22は、ビット割り当て復号部31および復号/逆量子化部32で構成され、ビットストリーム分解部21の出力から、各サブバンドのサブバンドデータを再構成(復号)する。
【0020】
即ち、ビット割り当て復号部31は、ビットストリーム分解部21から、ビット割り当て情報とスケールファクタを受信し、ビット割り当て情報が表す量子化ステップとスケールファクタを、復号/逆量子化部32に供給する。復号/逆量子化部32は、ビットストリーム分解部21から、各サブバンドの量子化サブバンドデータを受信し、その量子化サブバンドデータを、ビット割り当て部31から供給される量子化ステップで逆量子化する。さらに、復号/逆量子化部32は、量子化サブバンドデータの逆量子化結果に、スケールファクタを乗算すること等により、32のサブバンドのサブバンドデータを復号し、サブバンド合成部23に供給する。
【0021】
サブバンド合成部23は、再構成部22(の復号/逆量子化部32)から供給される32のサブバンドのサブバンドデータを合成し、これにより、1フレームの時間領域のオーディオデータを復号して出力する。
【0022】
次に、図3は、MPEG2オーディオAAC方式により、オーディオデータを符号化するエンコーダの構成例を示している。
【0023】
オーディオデータは、聴覚心理分析部41とフィルタバンク42に供給される。
【0024】
聴覚心理分析部41は、そこに供給されるオーディオデータをFFTすることにより、パワースペクトルを求め、そのパワースペクトルに基づき、複数のバンド(周波数帯域)それぞれごとに許容される量子化雑音を求める。さらに、聴覚心理分析部41は、その量子化雑音に基づいて、人間の聴覚または知覚特性によって雑音がマスキングされるように量子化を行うために1フレームのオーディオデータに割り当てるべき割り当てビット数を表すビット割り当て情報を求め、フィルタバンク42に供給する。
【0025】
フィルタバンク42は、MDCTを行うための複数のフィルタで構成され、聴覚心理分析部41から供給されるビット割り当て情報に基づいて、1フレームのオーディオデータをMDCT処理する際のブロック長を決定し、そのブロック長ごとに、オーディオデータをフィルタリングすることで、そのオーディオデータをMDCT処理(適応ブロック長MDCT処理)する。フィルタバンク42においてオーディオデータをMDCT処理することにより得られる、複数の周波数帯域それぞれごとのオーディオデータとしてのMDCT係数(周波数領域のオーディオデータ)は、演算部43に供給される。
【0026】
演算部43は、予測部50より供給されるMDCT係数の予測値について、フィルタバンク42から供給されるMDCT係数の真値から、MDCT係数の予測値を減算した予測誤差を求め、そのMDCT係数の予測誤差を、量子化部44に供給する。量子化部44は、演算部43からのMDCT係数の予測誤差を量子化し、その結果得られる量子化予測誤差を、符号化部45と逆量子化部47に供給する。
【0027】
符号化部45は、量子化部44からの量子化予測誤差をハフマン符号化し、その結果得られるハフマン符号化データを、ビットストリーム生成部46に供給する。ビットストリーム生成部46は、符号化部45から供給されるハフマン符号化データに、ヘッダその他の情報を多重化し、これにより、オーディオデータを符号化した符号化ビットストリームを生成して出力する。
【0028】
一方、逆量子化部47は、量子化部44の出力を逆量子化することにより、MDCT係数の予測誤差を求め、演算部48に供給する。演算部48は、逆量子化部47から供給されるMDCT係数の予測誤差と、予測部50が出力するMDCT係数の予測値とを加算することにより、MDCT係数をローカルデコードし、遅延部49に供給する。遅延部49は、演算部48から供給されるMDCT係数を所定の時間だけ遅延し、予測部50に供給する。
【0029】
予測部50は、遅延部49から供給されるMDCT係数を用いて線形予測を行うことにより、フィルタバンク42が出力するMDCT係数の予測値を求め、演算部43に供給する。
【0030】
演算部43では、このようにして予測部50から供給されるMDCT係数の予測値について、上述したように予測誤差が求められる。
【0031】
次に、図4は、オーディオデータをMPEG2オーディオAAC方式で符号化した符号化ビットストリーム、即ち、図3のエンコーダが出力する符号化ビットストリームを復号するデコーダの構成例を示している。
【0032】
符号化ビットストリームは、ビットストリーム分解部61に供給される。ビットストリーム分解部61は、符号化ビットストリームを、ヘッダその他の情報と、ハフマン符号化データに分解し、復号部62に供給する。
【0033】
復号部62は、ビットストリーム分解部61から供給されるハフマン符号化データを量子化予測誤差に復号し、逆量子化部63に供給する。逆量子化部63は、復号部62から供給される量子化予測誤差を逆量子化し、これにより、MDCT係数の予測誤差を得て、演算部64に供給する。
【0034】
演算部64は、図3の演算部48と同様に、逆量子化部63から供給されるMDCT係数の予測誤差と、予測部67が出力するMDCT係数の予測値とを加算することにより、MDCT係数を復号し、フィルタバンク65と遅延部66に供給する。
【0035】
フィルタバンク65は、逆MDCTを行うための複数のフィルタで構成され、演算部64から供給されるMDCT係数を逆MDCT処理することにより、複数の周波数帯域それぞれごとのオーディオデータを合成した時間領域のオーディオデータを求めて出力する。
【0036】
一方、遅延部66は、図3の遅延部49と同様に、演算部64から供給されるMDCT係数を所定の時間だけ遅延し、予測部67に供給する。
【0037】
予測部67は、図3の予測部50と同様に、遅延部66から供給されるMDCT係数を用いて線形予測を行うことにより、逆量子化部63が予測誤差を出力するMDCT係数の予測値を求め、演算部64に供給する。
【0038】
演算部64では、このようにして予測部67から供給されるMDCT係数の予測値が、上述したように、逆量子化部63から供給されるMDCT係数の予測誤差と加算されることにより、MDCT係数が復号される。
【0039】
【発明が解決しようとする課題】
以上のように、知覚符号化技術または聴覚心理符号化技術により、データ量を削減するMPEGオーディオ方式などでは、信号対マスク比に基づくビット数や、人間の聴覚または知覚特性によって雑音がマスキングされるように量子化を行うために必要なビット数が、オーディオデータに割り当てられる。従って、周波数帯域によっては、サブバンドデータまたはMDCT係数としての周波数領域のオーディオデータに対するビット割り当てが0とされることがある。
【0040】
このように、ビット割り当てが0とされた周波数帯域のオーディオデータは、図1または図3のエンコーダが出力する符号化ビットストリームに含まれないから、図2または図4のデコーダでは、その周波数帯域の周波数成分が存在しないオーディオデータが復号される。従って、復号されたオーディオデータの音質が、少なからず劣化する課題があった。
【0041】
かかるオーディオデータの音質の劣化を低減(防止)する方法としては、各周波数帯域のオーディオデータに対して、必ず、1ビット以上を割り当てる方法があるが、この方法では、符号化ビットストリームのデータ量が増加することとなる。
【0042】
本発明は、このような状況に鑑みてなされたものであり、符号化ビットストリームのデータ量を増加させずに、高音質のオーディオデータを復号することができるようにするものである。
【0043】
【課題を解決するための手段】
本発明の第1のデータ処理装置は、第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップを、第1のデータから抽出するクラスタップ抽出手段と、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データをクラス分類するクラス分類手段と、注目データを求める積和演算に用いる、注目データに近接する複数のデータからなる予測タップを、第1のデータから抽出する予測タップ抽出手段と、学習の教師となる、第2のデータに対応する教師データと、学習の生徒となる、第1のデータに対応する生徒データを用い、注目している教師データの予測値を、その教師データに近接する複数の生徒データとタップ係数との積和演算により求め、注目している教師データと、求められた予測値との差分値である予測誤差を最小にする学習を、1以上のクラスごとに行うことにより求められたタップ係数から、注目データのクラスのタップ係数を取得する取得手段と、注目データのクラスのタップ係数と、予測タップとを用いた積和演算を行うことにより注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータである第1のデータを、第1のデータにおいてビット割り当てが0とされた第1のデータにおいて抜けている周波数帯域のオーディオデータである第2のデータに変換する予測演算手段とを備えることを特徴とする。
【0044】
本発明の第1のデータ処理方法は、第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップを、第1のデータから抽出するクラスタップ抽出ステップと、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データをクラス分類するクラス分類ステップと、注目データを求める積和演算に用いる、注目データに近接する複数のデータからなる予測タップを、第1のデータから抽出する予測タップ抽出ステップと、学習の教師となる、第2のデータに対応する教師データと、学習の生徒となる、第1のデータに対応する生徒データを用い、注目している教師データの予測値を、その教師データに近接する複数の生徒データとタップ係数との積和演算により求め、注目している教師データと、求められた予測値との差分値である予測誤差を最小にする学習を、1以上のクラスごとに行うことにより求められたタップ係数から、注目データのクラスのタップ係数を取得する取得ステップと、注目データのクラスのタップ係数と、予測タップとを用いた積和演算を行うことにより注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータである第1のデータを、第1のデータにおいてビット割り当てが0とされた第1のデータにおいて抜けている周波数帯域のオーディオデータである第2のデータに変換する予測演算ステップとを備えることを特徴とする。
【0045】
本発明の第1のプログラムは、第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップを、第1のデータから抽出するクラスタップ抽出ステップと、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データをクラス分類するクラス分類ステップと、注目データを求める積和演算に用いる、注目データに近接する複数のデータからなる予測タップを、第1のデータから抽出する予測タップ抽出ステップと、学習の教師となる、第2のデータに対応する教師データと、学習の生徒となる、第1のデータに対応する生徒データを用い、注目している教師データの予測値を、その教師データに近接する複数の生徒データとタップ係数との積和演算により求め、注目している教師データと、求められた予測値との差分値である予測誤差を最小にする学習を、1以上のクラスごとに行うことにより求められたタップ係数から、注目データのクラスのタップ係数を取得する取得ステップと、注目データのクラスのタップ係数と、予測タップとを用いた積和演算を行うことにより注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータである第1のデータを、第1のデータにおいてビット割り当てが0とされた第1のデータにおいて抜けている周波数帯域のオーディオデータである第2のデータに変換する予測演算ステップとを備えることを特徴とする。
【0046】
本発明の第1の記録媒体は、第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップを、第1のデータから抽出するクラスタップ抽出ステップと、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データをクラス分類するクラス分類ステップと、注目データを求める積和演算に用いる、注目データに近接する複数のデータからなる予測タップを、第1のデータから抽出する予測タップ抽出ステップと、学習の教師となる、第2のデータに対応する教師データと、学習の生徒となる、第1のデータに対応する生徒データを用い、注目している教師データの予測値を、その教師データに近接する複数の生徒データとタップ係数との積和演算により求め、注目している教師データと、求められた予測値との差分値である予測誤差を最小にする学習を、1以上のクラスごとに行うことにより求められたタップ係数から、注目データのクラスのタップ係数を取得する取得ステップと、注目データのクラスのタップ係数と、予測タップとを用いた積和演算を行うことにより注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータである第1のデータを、第1のデータにおいてビット割り当てが0とされた第1のデータにおいて抜けている周波数帯域のオーディオデータである第2のデータに変換する予測演算ステップとを備えるプログラムが記録されていることを特徴とする。
【0047】
本発明の第2のデータ処理装置は、第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップを、第1のデータから抽出するクラスタップ抽出手段と、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データをクラス分類するクラス分類手段と、タップ係数の学習の教師となる、第2のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、注目データに近接する複数のデータからなる予測タップを、学習の生徒となる、第1のデータに対応する生徒データから抽出する予測タップ抽出手段と、注目データと予測タップを用い、注目データの予測値を、その注目データに近接する複数の生徒データとタップ係数との積和演算により求め、注目データと、求められた予測値との差分値である予測誤差を最小にする学習を、1以上のクラスごとに行うことにより、タップ係数を求める学習手段とを備え、第1のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、学習手段は、第1のデータを、第1のデータにおいてビット割り当てが0とされた第1のデータにおいて抜けている周波数帯域のオーディオデータである第2のデータに変換するのに用いられるタップ係数を求めることを特徴とする。
【0048】
本発明の第2のデータ処理方法は、時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第1のデータを、第1のデータよりも高品質のデータである第2のデータに変換するのに用いられるタップ係数を学習するデータ処理方法であって、第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップを、第1のデータから抽出するクラスタップ抽出ステップと、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データをクラス分類するクラス分類ステップと、タップ係数の学習の教師となる、第2のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、注目データに近接する複数のデータからなる予測タップを、学習の生徒となる、第1のデータに対応する生徒データから抽出する予測タップ抽出ステップと、注目データと予測タップを用い、注目データの予測値を、その注目データに近接する複数の生徒データとタップ係数との積和演算により求め、注目データと、求められた予測値との差分値である予測誤差を最小にする学習を、1以上のクラスごとに行うことにより、タップ係数を求める学習ステップとを備え、第1のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、学習ステップにおいて、第1のデータを、第1のデータにおいてビット割り当てが0とされた第1のデータにおいて抜けている周波数帯域のオーディオデータである第2のデータに変換するのに用いられるタップ係数が求められることを特徴とする。
【0049】
本発明の第2のプログラムは、第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップを、第1のデータから抽出するクラスタップ抽出ステップと、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データをクラス分類するクラス分類ステップと、タップ係数の学習の教師となる、第2のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、注目データに近接する複数のデータからなる予測タップを、学習の生徒となる、第1のデータに対応する生徒データから抽出する予測タップ抽出ステップと、注目データと予測タップを用い、注目データの予測値を、その注目データに近接する複数の生徒データとタップ係数との積和演算により求め、注目データと、求められた予測値との差分値である予測誤差を最小にする学習を、1以上のクラスごとに行うことにより、タップ係数を求める学習ステップとを備え、第1のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、学習ステップにおいて、第1のデータを、第1のデータにおいてビット割り当てが0とされた第1のデータにおいて抜けている周波数帯域のオーディオデータである第2のデータに変換するのに用いられるタップ係数が求められることを特徴とする。
【0050】
本発明の第2の記録媒体は、第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップを、第1のデータから抽出するクラスタップ抽出ステップと、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データをクラス分類するクラス分類ステップと、タップ係数の学習の教師となる、第2のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、注目データに近接する複数のデータからなる予測タップを、学習の生徒となる、第1のデータに対応する生徒データから抽出する予測タップ抽出ステップと、注目データと予測タップを用い、注目データの予測値を、その注目データに近接する複数の生徒データとタップ係数との積和演算により求め、注目データと、求められた予測値との差分値である予測誤差を最小にする学習を、1以上のクラスごとに行うことにより、タップ係数を求める学習ステップとを備え、第1のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、学習ステップにおいて、第1のデータを、第1のデータにおいてビット割り当てが0とされた第1のデータにおいて抜けている周波数帯域のオーディオデータである第2のデータに変換するのに用いられるタップ係数が求められるプログラムが記録されていることを特徴とする。
【0051】
本発明の第1のデータ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体においては、第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップが、第1のデータから抽出され、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データがクラス分類され、注目データを求める積和演算に用いる、注目データに近接する複数のデータからなる予測タップが、第1のデータから抽出される。また、学習の教師となる、第2のデータに対応する教師データと、学習の生徒となる、第1のデータに対応する生徒データを用い、注目している教師データの予測値を、その教師データに近接する複数の生徒データとタップ係数との積和演算により求め、注目している教師データと、求められた予測値との差分値である予測誤差を最小にする学習を、1以上のクラスごとに行うことにより求められたタップ係数から、注目データのクラスのタップ係数が取得される。そして、その注目データのクラスのタップ係数と、予測タップとを用いた積和演算を行うことにより注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータである第1のデータが、第1のデータにおいてビット割り当てが0とされた第1のデータにおいて抜けている周波数帯域のオーディオデータである第2のデータに変換される。
【0052】
本発明の第2のデータ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体においては、第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、注目データに近接する複数のデータからなるクラスタップが、第1のデータから抽出され、クラスタップを構成する複数のデータの値から、クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、注目データがクラス分類される。また、タップ係数の学習の教師となる、第2のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、注目データに近接する複数のデータからなる予測タップが、学習の生徒となる、第1のデータに対応する生徒データから抽出される。そして、注目データと予測タップを用い、注目データの予測値を、その注目データに近接する複数の生徒データとタップ係数との積和演算により求め、注目データと、求められた予測値との差分値である予測誤差を最小にする学習を、1以上のクラスごとに行うことにより、タップ係数が求められる。また、第1のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、学習において、第1のデータを、第1のデータにおいてビット割り当てが0とされた第1のデータにおいて抜けている周波数帯域のオーディオデータである第2のデータに変換するのに用いられるタップ係数が求められる。
【0053】
【発明の実施の形態】
図5は、本発明を適用したデータ処理装置の一実施の形態の構成例を示している。
【0054】
このデータ処理装置においては、ディジタルオーディオデータを符号化し、その結果得られる符号化ビットストリームが、ディジタルオーディオデータに復号されるようになっている。
【0055】
即ち、符号化対象のオーディオデータは、符号化装置101に供給される。符号化装置101は、知覚符号化技術または聴覚心理符号化技術により、データ量を削減するもので、そこに供給されるオーディオデータを所定の符号化方式で符号化し、符号化ビットストリームを出力する。
【0056】
ここで、符号化装置101における符号化方式としては、例えば、前述したMPEG1オーディオレイヤ1,2,3やMPEG2オーディオAACなどを採用することができる。なお、ここでは、符号化装置101の符号化方式として、例えば、MPEG1オーディオレイヤ1を採用することとする。従って、符号化装置101は、前述の図1のエンコーダと同様に構成される。
【0057】
符号化装置101が出力する符号化ビットストリームは、例えば、地上波や、衛星回線、CATV(Cable Television)、インターネット、電話回線、その他の有線または無線の伝送媒体103を介して伝送され、あるいは、例えば、半導体メモリや、光磁気ディスク、磁気ディスク、相変化ディスクなどの記録媒体104に記録される。
【0058】
復号装置102には、伝送媒体103を介して伝送されてくる符号化ビットストリーム、あるいは、記録媒体104から再生された符号化ビットストリームが供給される。
【0059】
復号装置102は、そこに供給される符号化ビットストリームをオーディオデータに復号して出力する。
【0060】
なお、符号化装置101と復号装置102は、別々の筐体でなる、独立した装置として構成することもできるし、1つの筐体でなる1つの装置として構成することも可能である。
【0061】
次に、図6は、図5の復号装置102の第1の構成例を示している。
【0062】
復号装置102に供給される符号化ビットストリームは、デコーダ111で受信される。
【0063】
デコーダ111は、符号化装置101(図5)が出力する符号化ビットストリームを復号するデコーダと同様に構成されている。従って、本実施の形態では、符号化装置101は、MPEG1オーディオレイヤ1方式でオーディオデータを符号化した符号化ビットストリームを出力するので、デコーダ111は、例えば、図2のデコーダと同様に構成されている。但し、デコーダ111は、図2のサブバンド合成部23で得られる、符号化ビットストリームをMPEG1オーディオレイヤ1で復号した時間領域のオーディオデータではなく、再構成部22で得られる周波数領域のオーディオデータとしての各サブバンドごとのサブバンドデータを出力する。さらに、デコーダ111は、ビットストリーム分解部21において、符号化ビットストリームから得られた、量子化サブバンドデータ以外のデータ、即ち、ヘッダや、スケーリングファクタ、ビット割り当て情報を、サイドインフォメーションとして出力する。
【0064】
なお、デコーダ111は、フレームごとに、各サブバンドのサブバンドデータとサイドインフォメーションを出力するが、サブバンドデータは、クラス分類適応処理部113とサブバンド合成部114に供給され、サイドインフォメーションは、コントローラ112とクラス分類適応処理部113に供給される。
【0065】
コントローラ112は、クラス分類適応処理部113において求めようとするサブバンドデータを注目データとして選択する。さらに、コントローラ112は、注目データのサブバンドを表すサブバンドナンバと、そのサブバンドにおける注目データのデータ位置などを、注目データを特定するための特定情報として、クラス分類適応処理部113およびサブバンド合成部114に供給する。また、コントローラ112は、デコーダ111から供給されるサイドインフォメーションに基づき、各フレームにおいてサブバンドデータが抜けているサブバンド、即ち、符号化装置101(図5)においてビット割り当てが0ビットとされたサブバンドがあるかどうかを判定し、さらに、ビット割り当てが0ビットとされたサブバンドがある場合には、そのサブバンドを表すサブバンドナンバを認識する。
【0066】
ここで、本実施の形態では、符号化装置101(図5)において、オーディオデータは、図1で説明したように、32のサブバンドのサブバンドデータに符号化される。いま、この32のサブバンドを、低周波数帯域から、サブバンドsb0,sb1,・・・,sb31というように、sbに、0からのシーケンシャルな数字を付して表すこととすると、あるサブバンドsb#nのサブバンドナンバとは、例えば、sbに付されている数字#nを表す。また、1つのサブバンドには、図1で説明したように、12のサブバンドデータが存在するが、そのサブバンドデータ(のサンプル)を、d0,d1,・・・,d12というように、dに、0からの数字を付して表すこととすると、あるサブバンドデータd#iのデータ位置とは、例えば、dに付されている数字#iを表す。
【0067】
クラス分類適応処理部113は、デコーダ111から供給されるサブバンドデータ、およびコントローラ112から供給される特定情報としての注目データ(サブバンドデータ)のサブバンドナンバとデータ位置などを用いて、例えば、後述するクラス分類適応処理を行うことにより、注目データとしてのサブバンドデータを求め(予測し)、サブバンド合成部114に供給する。
【0068】
サブバンド合成部114は、デコーダ111から供給されるサブバンドのサブバンドデータと、クラス分類適応処理部113から供給されるサブバンドのサブバンドデータとを、図2のサブバンド合成部23における場合と同様にして合成し、これにより、時間領域のオーディオデータを求めて出力する。
【0069】
次に、図6のクラス分類適応処理部113において行われるクラス分類適応処理について説明する。
【0070】
クラス分類適応処理は、クラス分類処理と適応処理とからなり、クラス分類処理によって、データを、その性質に基づいてクラス分けし、各クラスごとに適応処理を施すものであり、適応処理とは、以下のような手法の処理である。
【0071】
即ち、適応処理では、第1のデータが、所定のタップ係数を用いてマッピング(写像)されることにより、第2のデータに変換される。
【0072】
いま、このタップ係数を用いてのマッピング方法として、例えば、線形1次結合モデルを採用するとともに、第1のデータとして、デコーダ111が出力するサブバンドデータ、即ち、オーディオデータをMPEG1オーディオレイヤ1方式により符号化し、さらに、MPEG1オーディオレイヤ1方式により復号することにより得られるサブバンドデータを用い、第2のデータとして、そのサブバンドデータの真値、即ち、符号化装置101でオーディオデータをサブバンド符号化することにより得られるサブバンドデータを用いることとして、適応処理について説明する。
【0073】
なお、オーディオデータをMPEG1オーディオレイヤ1方式により符号化し、さらに、MPEG1オーディオレイヤ1方式により復号することにより得られるサブバンドデータから、時間領域のオーディオデータを求めた場合と、符号化装置101でオーディオデータをサブバンド符号化することにより得られるサブバンドデータから時間領域のオーディオデータを求めた場合とでは、量子化の有無によって、音質に差が生じる。即ち、前者では後者より低音質のオーディオデータが得られ、後者では前者より高音質のオーディオデータを得ることができる。そこで、以下、適宜、オーディオデータをMPEG1オーディオレイヤ1方式により符号化し、さらに、MPEG1オーディオレイヤ1方式により復号することにより得られるサブバンドデータを、低音質サブバンドデータというとともに、オーディオデータをサブバンド符号化することにより得られるサブバンドデータを、高音質サブバンドデータという。
【0074】
上述の条件下において、高音質サブバンドデータyは、例えば、低音質サブバンドデータから、高音質サブバンドデータを予測するための予測タップとして抽出される複数の低音質サブバンドデータと、タップ係数とを用いて、次の線形1次式(線形結合)によって求められる。
【0075】
【数1】
Figure 0004218271
Figure 0004218271
【0076】
但し、式(1)において、xnは、高音質サブバンドデータyについての予測タップを構成する、n番目の低音質サブバンドデータ(のサンプル値)を表し、wnは、n番目の低音質サブバンドデータと乗算されるn番目のタップ係数を表す。なお、式(1)では、予測タップが、N個の低音質サブバンドデータx1,x2,・・・,xNで構成されるものとしてある。
【0077】
ここで、高音質サブバンドデータyは、式(1)に示した線形1次式ではなく、2次以上の高次の式によって求めるようにすることも可能である。
【0078】
いま、第kサンプルの高音質サブバンドデータの真値をykと表すとともに、式(1)によって得られるその真値ykの予測値をyk’と表すと、その予測誤差ekは、例えば、次式で表される。
【0079】
【数2】
Figure 0004218271
Figure 0004218271
【0080】
式(2)の予測値yk’は、式(1)にしたがって求められるため、式(2)のyk’を、式(1)にしたがって置き換えると、次式が得られる。
【0081】
【数3】
Figure 0004218271
Figure 0004218271
【0082】
但し、式(3)において、xn,kは、第kサンプルの高音質サブバンドデータについての予測タップを構成するn番目の低音質サブバンドデータを表す。
【0083】
式(3)の予測誤差ekを0とするタップ係数wnが、高音質サブバンドデータを予測するのに最適なものとなるが、すべての高音質サブバンドデータについて、そのようなタップ係数wnを求めることは、一般には困難である。
【0084】
そこで、タップ係数wnが最適なものであることを表す規範として、例えば、最小自乗法を採用することとすると、最適なタップ係数wnは、統計的な誤差としての、例えば、次式で表される自乗誤差の総和Eを最小にすることで求めることができる。
【0085】
【数4】
Figure 0004218271
Figure 0004218271
【0086】
但し、式(4)において、Kは、高音質サブバンドデータykと、その高音質サブバンドデータykについての予測タップを構成する低音質サブバンドデータx1,k,x2,k,・・・,xN,kとのセットのサンプル数を表す。
【0087】
式(4)の自乗誤差の総和Eを最小(極小)にするタップ係数wnは、その総和Eをタップ係数wnで偏微分したものを0とするものであり、従って、次式を満たす必要がある。
【0088】
【数5】
Figure 0004218271
Figure 0004218271
【0089】
そこで、上述の式(3)をタップ係数wnで偏微分すると、次式が得られる。
【0090】
【数6】
Figure 0004218271
Figure 0004218271
【0091】
式(5)と(6)から、次式が得られる。
【0092】
【数7】
Figure 0004218271
Figure 0004218271
【0093】
式(7)のekに、式(3)を代入することにより、式(7)は、式(8)に示す正規方程式で表すことができる。
【0094】
【数8】
Figure 0004218271
Figure 0004218271
【0095】
式(8)の正規方程式は、高音質サブバンドデータykと低音質サブバンドデータxn,kのセットを、ある程度の数だけ用意することで、求めるべきタップ係数wnの数と同じ数だけたてることができ、従って、式(8)を解くことで(但し、式(8)を解くには、式(8)において、タップ係数wnにかかる左辺の行列が正則である必要がある)、最適なタップ係数wnを求めることができる。なお、式(8)を解くにあたっては、例えば、掃き出し法(Gauss-Jordanの消去法)などを採用することが可能である。
【0096】
以上のように、多数の高音質サブバンドデータy1,y2,・・・,yKを、タップ係数の学習の教師となる教師データとするとともに、各高音質サブバンドデータykについての予測タップを構成する低音質サブバンドデータx1,k,x2,k,・・・,xN,kを、タップ係数の学習の生徒となる生徒データとして、式(8)を解くことにより、最適なタップ係数wnを求める学習を行っておき、さらに、そのタップ係数wnを用い、式(1)により、低音質サブバンドデータを、高音質サブバンドデータにマッピング(変換)するのが適応処理である。
【0097】
なお、適応処理は、低音質サブバンドデータには含まれていないが、高音質サブバンドデータに含まれる成分が再現される点で、例えば、単なる補間処理等とは異なる。即ち、適応処理では、式(1)だけを見る限りは、いわゆる補間フィルタを用いての補間処理と同一であるが、その補間フィルタのタップ係数に相当するタップ係数wnが、教師データとしての高音質サブバンドデータと生徒データとしての低音質サブバンドデータとを用いての学習により求められるため、高音質サブバンドデータに含まれる成分を再現することができる。
【0098】
ここで、タップ係数wnの学習では、教師データyと生徒データxとの組み合わせとして、どのようなものを採用するかによって、各種の変換を行うタップ係数wnを求めることができる。
【0099】
即ち、例えば、上述のように、教師データyとして、高音質サブバンドデータを採用するとともに、生徒データxとして、低音質サブバンドデータを採用した場合には、低音質サブバンドデータを高音質サブバンドデータに変換するタップ係数wnを得ることができる。また、例えば、教師データyとして、時間領域の高音質のオーディオデータを採用するとともに、生徒データxとして、その高音質のオーディオデータを処理して得られる低音質サブバンドデータを採用した場合には、周波数領域のデータとしての低音質サブバンドデータを、時間領域のデータとしての高音質のオーディオデータに変換するタップ係数wnを得ることができる。さらに、例えば、教師データyとして、時間領域の高音質のオーディオデータを採用するとともに、生徒データxとして、その高音質のオーディオデータをMPEG2オーディオACC方式により符号化して復号することにより得られるMDCT係数を採用した場合には、周波数領域のデータとしてのMDCT係数を、時間領域のデータとしての高音質のオーディオデータに変換するタップ係数wnを得ることができる。
【0100】
なお、上述の場合には、予測タップを、低音質サブバンドデータだけから構成することとしたが、予測タップは、低音質サブバンドデータ以外の情報、即ち、例えば、サイドインフォメーションなどを含めて構成することが可能である。
【0101】
図6のクラス分類適応処理部113は、タップ生成部121および122、クラス分類部123、タップ係数記憶部124、並びに予測演算部125で構成され、上述のようなクラス分類適応処理を行うことにより、高音質サブバンドデータを求めるようになっている。
【0102】
即ち、タップ生成部121は、コントローラ112から供給される特定情報としてのサブバンドナンバとデータ位置によって特定される高音質サブバンドデータを注目データとして選択し、その注目データ(の予測値)を求めるのに用いる予測タップを、デコーダ111から供給される、MPEG1オーディオレイヤ1方式により復号されたサブバンドデータ、即ち、低音質サブバンドデータ、さらには、やはり、デコーダ111から供給されるサイドインフォメーションから生成し、予測演算部125に供給する。
【0103】
具体的には、タップ生成部121は、例えば、注目データのフレームの低音質サブバンドデータとサイドインフォメーションの幾つかを抽出し、それらを所定の順番で並べたものを、予測タップとする。あるいは、また、タップ生成部121は、例えば、注目データのフレームの他、そのフレームに近接するフレームからも、低音質サブバンドデータとサイドインフォメーションの幾つかを抽出し、それらを所定の順番で並べたものを、予測タップとする。
【0104】
タップ生成部122は、タップ生成部121と同様に、コントローラ112から供給される特定情報から注目データを選択し、その注目データのクラス分類に用いるクラスタップを、デコーダ111から供給される低音質サブバンドデータとサイドインフォメーションから生成し、クラス分類部123に出力する。
【0105】
ここで、上述したように、予測タップやクラスタップは、デコーダ111から供給される低音質サブバンドデータの他、サイドインフォメーションをも用いて生成することが可能であるが、デコーダ111から供給される低音質サブバンドデータのみから生成することも可能である。
【0106】
そこで、以下では、説明を簡単にするために、予測タップとクラスタップは、デコーダ111から供給される低音質サブバンドデータのみから生成されるものとする。
【0107】
クラス分類部123は、タップ生成部122からのクラスタップ、さらには、例えば、コントローラ112から供給される特定情報としてのサブバンドナンバとデータ位置に基づいて、注目データをクラス分類し、その結果得られる注目データのクラスに対応するクラスコードを、タップ係数記憶部124に供給する。
【0108】
ここで、クラスタップによるクラス分類を行うにあたっては、そのクラスタップを構成する低音質サブバンドデータの各サンプル値を表すビット列をそのまま所定の順番で並べて得られるビット列を、クラスコードとすることが可能であるが、この場合、クラス数(クラスの総数)が膨大な数になることがある。そこで、クラス分類には、例えば、KビットADRC(Adaptive Dynamic Range Coding)処理などの圧縮処理を採用することができる。
【0109】
KビットADRC処理においては、クラスタップを構成する低音質サブバンドデータのサンプル値の最大値MAXと最小値MINが検出され、DR=MAX-MINを、局所的なダイナミックレンジとし、このダイナミックレンジDRに基づいて、クラスタップを構成する低音質サブバンドデータがKビットに再量子化される。即ち、クラスタップを構成する各低音質サブバンドデータのサンプル値から、最小値MINが減算され、その減算値がDR/2Kで除算(量子化)される。従って、クラスタップが、例えば、1ビットADRC処理される場合には、そのクラスタップを構成する各低音質サブバンドデータのサンプル値は1ビットとされることになる。そして、この場合、以上のようにして得られる、クラスタップを構成する各低音質サブバンドデータについての1ビットのサンプル値を、所定の順番で並べたビット列が、ADRCコードとして出力され、このADRCコードがクラスコードとされる。
【0110】
なお、クラス分類は、その他、例えば、クラスタップを構成する低音質サブバンドデータ(のサンプル値)を、ベクトルのコンポーネントとみなし、そのベクトルをベクトル量子化すること等によって行うことも可能である。また、クラス分類としては、1クラスのクラス分類を行うことも可能である。この場合、クラス分類部123は、どのようなクラスタップおよび特定情報が供給されても、固定のクラスコードを出力するものとなる。但し、1クラスのクラス分類を行うということは、クラス分類部123を設けないことと等価である。
【0111】
図6の実施の形態では、クラス分類部123は、クラスタップの他、注目データを特定情報としてのサブバンドナンバとデータ位置にも基づいて、クラス分類を行う。ここで、サブバンドナンバとデータ位置に基づくクラス分類も、上述のKビットADRC処理やベクトル量子化などを採用することができるが、サブバンドナンバやデータ位置の数は、それほど多くないので、サブバンドナンバとデータ位置に基づくクラス分類では、そのサブバンドナンバとデータ位置それぞれを表すビット列をそのまま並べて得られるビット列を、クラスコードとすることが可能である。
【0112】
即ち、本実施の形態では、上述したように、サブバンドナンバは、0乃至31の5ビットで表される値であり、データ位置は、0乃至11の4ビットで表される値である。従って、サブバンドナンバとデータ位置に基づくクラス分類において、そのサブバンドナンバとデータ位置それぞれを表すビット列をそのまま並べて得られるビット列を、クラスコードとして採用しても、クラスコードは、9ビット(=5+4ビット)で表されるものとなり、クラス数は、それほど多くならない。
【0113】
いま、クラスタップに基づくクラス分類の結果得られるクラスコードを、タップコードというとともに、特定情報としてのサブバンドナンバとデータ位置に基づくクラス分類の結果得られるクラスコードを、情報コードというものとすると、クラス分類部123は、タップコードと情報コードを求めた後、そのタップコードと情報コードそれぞれを表すビット列を並べて得られるビット列を、注目データについての最終的なクラスコードとして、タップ係数記憶部124に供給する。
【0114】
タップ係数記憶部124は、学習の教師となる高音質サブバンドデータである教師データと、学習の生徒となる低音質サブバンドデータである生徒データとの関係を、1以上のクラスごとに学習することにより得られたタップ係数を記憶している。そして、タップ係数記憶部124は、クラス分類部123から注目データのクラスコードが供給されると、そのクラスコードに対応するクラスのタップ係数を読み出すことにより、注目データのクラスのタップ係数を取得し、予測演算部125に供給する。なお、タップ係数記憶部124に記憶されるタップ係数の学習方法についての詳細は、後述する。
【0115】
予測演算部125は、タップ係数記憶部124から供給される、注目データのクラスのタップ係数w1,w2,・・・と、タップ生成部121からの注目データの予測タップ(を構成する各低音質サブバンドデータのサンプル値)x1,x2,・・・とを用いて、式(1)に示した積和演算を行うことにより、注目データy(の予測値)を求め、これを、注目データとしての高音質サブバンドデータのサンプル値とする。予測演算部125は、以上のようにして、1サブバンドを構成する高音質サブバンドデータのサンプル値すべてが得られると、その1サブバンドの高音質サブバンドデータを、サブバンド合成部114に供給する。
【0116】
次に、図7乃至図9を参照して、図6のタップ生成部121と122でそれぞれ生成される予測タップとクラスタップについて説明する。
【0117】
なお、以下、適宜、予測タップとクラスタップを、特に区別する必要がない場合には、単に、タップという。また、ここでは、説明を簡単にするために、予測タップとクラスタップのタップの構造(タップ構造)は、同一であるとする。但し、予測タップとクラスタップとは、異なるタップ構造のものとすることが可能である。
【0118】
いま、注目データのサブバンドを注目サブバンドというとともに、注目データのフレームを注目フレームというものとする。
【0119】
注目フレームは、図7Aに示すように、32のサブバンドsb0乃至sb31で構成されるが、いま、そのうちのサブバンドsb#nが注目サブバンドであるとすると、注目データのタップは、例えば、注目フレームを構成する32のサブバンドsb0乃至sb31それぞれの低音質サブバンドデータすべてで構成することが可能である。
【0120】
しかしながら、この場合、注目データのタップを構成する低音質サブバンドデータのサンプル数(タップ数)が多くなる。そして、その結果、クラス分類部123でのクラス分類により得られるクラスの総数も多くなり、また、予測演算部125での演算量も多くなる。
【0121】
一方、クラス分類適応処理によれば、基本的には、タップ数が多いほど、注目データを精度良く求めることができる(高い予測制度で予測することができる)。しかしながら、タップ数が多くても、その中に、注目データとまったく相関のない、またはほとんど相関のないものが含まれている場合には、逆に、注目データの予測精度が劣化することがある。
【0122】
そこで、タップ生成部121および122は、例えば、注目フレームを構成する32のサブバンドsb0乃至sb31のうちの、幾つかのサブバンドを、注目データのタップを構成するのに用いるタップ用サブバンドとして選択し、そのタップ用サブバンドの低音質サブバンドデータを、注目データのタップとして抽出する。
【0123】
タップ用サブバンドの選択方法としては、例えば、注目サブバンドsb#nだけを選択する方法がある。しかしながら、オーディオデータがMPEG1オーディオレイヤ1で符号化された場合には、上述したように、ビット割り当てが0とされ、サブバンドデータが抜けているサブバンド(以下、適宜、ヌルサブバンドという)が存在することがある。
【0124】
従って、タップ用サブバンドを、注目サブバンドsb#nだけとした場合に、その注目サブバンドsb#nがヌルサブバンドであるときには、注目データのタップは、例えば、すべて0となる。予測タップがすべて0の場合、式(1)を演算しても、その演算結果は、必ず0となるから、予測タップがすべて0となるのは好ましくない。
【0125】
そこで、タップ用サブバンドとしては、複数のサブバンドを選択するのが望ましい。タップ用サブバンドとして複数のサブバンドを選択する場合、その選択方法としては、例えば、注目サブバンドsb#nと、その注目サブバンドsb#nに近接するサブバンド(例えば、隣接するサブバンドsb#n-1およびsb#n+1など)を選択する方法がある。
【0126】
ところで、クラス分類適応処理では、タップに、注目データとの相関が高いデータが含まれる方が、相関が低いデータが含まれる場合よりも、注目データを精度良く求めることができる。
【0127】
一方、楽曲などの音の音色は、その音に含まれる倍音などにより決まり、楽曲には、多くの倍音が含まれる。従って、オーディオデータが、楽曲などのデータである場合には、ある周波数帯域の成分は、その2-N倍や2N倍の周波数帯域の成分と大きな相関を有することが多い(Nは正の整数値)。
【0128】
そこで、本実施の形態では、例えば、図7Bに示すように、注目サブバンドsb#nと、その注目サブバンドsb#nの1/2倍の周波数帯域のサブバンドsb#nL、および2倍の周波数帯域のサブバンドsb#nHが、タップ用サブバンドとして選択される。
【0129】
この場合、タップが、注目サブバンドsb#nと相関の大きいサブバンドのサブバンドデータで構成されることとなるので、注目データとしての高音質データを高精度で求めることが可能となる。
【0130】
なお、注目サブバンドsb#nの1/2倍または2倍の周波数帯域のサブバンドsb#nLまたはsb#nHのサブバンドナンバ#nLまたは#nHは、例えば、INT[#n/2]またはINT[#n×2]や、あるいは、INT[#n/2]+1またはINT[#n×2]+1などで、それぞれ表される。但し、INT[]は、[]内の値以下の最大の整数値を表す。
【0131】
また、タップ用サブバンドとしては、注目サブバンドsb#nと、その注目サブバンドsb#nの1/2倍の周波数帯域のサブバンド(以下、適宜、ローサブバンドという)sb#nL、および2倍の周波数帯域のサブバンド(以下、適宜、ハイサブバンドという)sb#nHの他、例えば、注目サブバンドsb#nの1/4倍や4倍、1/8倍、8倍などの周波数帯域のサブバンドを選択することも可能である。
【0132】
ここで、本実施の形態では、サブバンドは、32のサブバンドsb0乃至sb31しか存在しないから、注目サブバンドsb#nによっては、その1/2倍の周波数帯域のローサブバンドsb#nL、あるいは2倍の周波数帯域のハイサブバンドsb#nHが存在しないことがある。ローサブバンドsb#nLまたはハイサブバンドsb#nHが存在しない場合、タップ生成部121および122は、その存在しないサブバンドのサブバンドデータが、例えば0であるとして、タップを構成する。
【0133】
次に、タップ生成部121および122は、上述したように、タップ用サブバンドである注目サブバンドsb#n、ローサブバンドsb#nL、およびハイサブバンドsb#nHのサブバンドデータから、タップを生成する。この場合、タップ生成部121おいよび122では、例えば、注目サブバンドsb#n、ローサブバンドsb#nL、およびハイサブバンドsb#nHのサブバンドデータのすべてを、タップとすることができる他、そのサブバンドデータの一部だけを、タップとすることも可能である。
【0134】
注目サブバンドsb#n、ローサブバンドsb#nL、およびハイサブバンドsb#nHのサブバンドデータの一部をタップとする場合には、例えば、図8に示すように、注目サブバンドsb#n、ローサブバンドsb#nL、ハイサブバンドsb#nHそれぞれから、注目データのデータ位置に近いデータ位置のサブバンドデータを、タップとすることができる。
【0135】
即ち、図8では、注目サブバンドsb#nの先頭から6番目のデータ位置にある高音質サブバンドデータd5が注目データとされている。この場合、例えば、注目サブバンドsb#n、ローサブバンドsb#nL、ハイサブバンドsb#nHそれぞれにおいて、注目データd5のデータ位置に近い低音質サブバンドデータd3乃至d7の、合計で25のサブバンドデータを、注目データのタップとすることができる。
【0136】
なお、上述の場合には、注目フレームのサブバンドのサブバンドデータのみを用いて、注目データのタップを構成するようにしたが、注目データのタップは、その他、注目フレームに近接するフレームのサブバンドのサブバンドデータを用いて構成することが可能である。
【0137】
即ち、注目データのタップは、例えば、図9Aに示すように、注目フレームである第fフレームの注目サブバンドsb#nと、その1フレーム前または後の第f−1フレームまたは第f+1フレームそれぞれの、注目サブバンドsb#nと同一のサブバンドナンバ#nのサブバンドsb#nを、タップ用サブバンドとして、そのタップ用サブバンドのサブバンドデータを用いて構成することができる。注目サブバンドsb#nの1フレーム前または後の第f−1フレームまたは第f+1フレームそれぞれの、注目サブバンドsb#nと同一のサブバンドナンバ#nのサブバンドsb#nは、注目フレームである第fフレームの注目サブバンドsb#nとの相関が大きので、注目データとしての高音質データを高精度で求めることが可能となる。
【0138】
さらに、注目データのタップは、例えば、図9Bに示すように、第f−1乃至第f+1フレームそれぞれのサブバンドsb#n、第f−1乃至第f+1フレームそれぞれのローサブバンドsb#nL、および第f−1乃至第f+1フレームそれぞれのハイサブバンドsb#nHを、タップ用サブバンドとして、そのタップ用サブバンドのサブバンドデータを用いて構成することができる。
【0139】
次に、図10のフローチャートを参照して、図6の復号装置102の処理(復号処理)について説明する。
【0140】
デコーダ111は、あるフレームの符号化ビットストリームを受信すると、そのフレームを、注目フレームとし、ステップS1において、その注目フレームについて、通常デコード処理を行う。
【0141】
即ち、本実施の形態では、符号化ビットストリームは、オーディオデータをMPEG1オーディオレイヤ1方式で符号化したものであり、ステップS1では、注目フレームの符号化ビットストリームが、MPEG1オーディオレイヤ1方式で復号される。
【0142】
具体的には、ステップS1の通常デコード処理では、まず最初に、ステップS21において、デコーダ111は、注目フレームの符号化ビットストリームを、量子化サブバンドデータと、その他のデータであるサイドインフォメーションに分解し、注目フレームのサイドインフォメーションを、コントローラ112とクラス分類適応処理部113に供給する。そして、ステップS22に進み、デコーダ111は、注目フレームの量子化サブバンドデータを逆量子化し、これにより、MPEG1オーディオレイヤ1方式で符号化されて復号されたサブバンドデータ、即ち、低音質サブバンドデータを得る。この注目フレームの低音質サブバンドデータは、クラス分類適応処理部113とサブバンド合成部114に供給される。
【0143】
以上のステップS21および22の処理によって、ステップS1の通常デコード処理が終了し、その後は、ステップS2に進む。ステップS2では、コントローラ112は、注目フレームのサブバンドのサブバンドナンバを表す変数nに、初期値としての、例えば0をセットし、ステップS3に進む。ステップS3では、コントローラ112は、注目フレームのサイドインフォメーションを参照することにより、サブバンドナンバ#nで特定される注目フレームのサブバンドsb#nに、サブバンドデータが存在するかどうか、即ち、注目フレームのサブバンドsb#nに対するビット割り当てが0かどうかを判定する。
【0144】
ステップS3において、注目フレームのサブバンドsb#nに、サブバンドデータが存在すると判定された場合、ステップS4乃至S9をスキップして、ステップS10に進む。
【0145】
また、ステップS3において、注目フレームのサブバンドsb#nに、サブバンドデータが存在しないと判定された場合、即ち、注目フレームのサブバンドsb#nに対するビット割り当てが0である場合、ステップS4に進み、コントローラ112は、その注目フレームのサブバンドsb#nを、注目サブバンドとして選択し、ステップS5に進む。
【0146】
ステップS5では、コントローラ112は、サブバンドの高音質サブバンドデータのデータ位置を表す変数iに、初期値としての、例えば0をセットし、ステップS6に進む。
【0147】
ステップS6では、コントローラ112は、注目サブバンドsb#nの、データ位置#iで特定される高音質サブバンドデータd#iを、注目データとして選択する。さらに、ステップS6では、コントローラ112は、注目データd#iを特定する特定情報として、注目データd#iのデータ位置#iと、注目サブバンドsb#nのサブバンドナンバ#nを、クラス分類適応処理部113とサブバンド合成部114に供給し、ステップS7に進む。
【0148】
ステップS7では、クラス分類適応処理部113が、注目データd#iを求めるクラス分類適応処理を行う。
【0149】
即ち、ステップS7のクラス分類適応処理では、まず最初に、ステップS31において、タップ生成部121と122が、コントローラ112からの特定情報としてのデータ位置#iとサブバンドナンバ#nで特定される高音質サブバンドデータd#iを、注目データd#iとして認識し、その注目データd#iについて、デコーダ111から供給される低音質サブバンドデータを用い、例えば、図7乃至図9で説明した予測タップとクラスタップをそれぞれ生成する。
【0150】
ここで、本実施の形態では、説明を簡単にするために、予測タップとクラスタップを、低音質サブバンドデータのみを用いて生成することとしているが、予測タップとクラスタップは、上述したように、デコーダ111から供給されるサイドインフォメーションなどをも用いて生成することが可能である。
【0151】
ステップS31で得られた予測タップは、タップ生成部121から予測演算部125に供給され、また、クラスタップは、タップ生成部122からクラス分類部123に供給され、その後、ステップS31からステップS32に進む。
【0152】
ステップS32では、クラス分類部123が、タップ生成部122から供給されるクラスタップの他、コントローラ112から供給される注目サブバンドsb#nのサブバンドナンバ#n、および注目データd#iのデータ位置#iに基づいて、注目データをクラス分類し、その結果得られる注目データのクラスを表すクラスコードを、タップ係数記憶部124に供給して、ステップS33に進む。
【0153】
ここで、クラス分類部123でのクラス分類は、クラスタップ、サブバンドナンバ#n、およびデータ位置#iに基づいて行う他、例えば、クラスタップのみに基づいて行うようにすることも可能である。
【0154】
ステップS33では、タップ係数記憶部124が、そこに記憶されているクラスごとのタップ係数から、クラス分類部123から供給されるクラスコードが表す注目データd#iのクラスのタップ係数を読み出すことにより取得し、その注目データd#iのクラスのタップ係数を、予測演算部125に供給して、ステップS34に進む。
【0155】
ステップS34では、予測演算部125が、タップ生成部121から供給される注目データd#iについての予測タップと、タップ係数記憶部124から供給される注目データd#iのクラスのタップ係数とを用いて、式(1)の積和演算を行うことにより、注目データd#iを求める。
【0156】
以上のステップS31乃至S34の処理によって、ステップS7のクラス分類適応処理が終了し、ステップS8に進む。ステップS8では、コントローラ112が、変数iが、データ位置の最大値である11に等しいかどうかを判定し、11に等しくないと判定した場合、ステップS9に進む。ステップS9では、コントローラ112は、変数iを1だけインクリメントして、ステップS6に戻り、以下、同様の処理が繰り返される。
【0157】
また、ステップS8において、変数iが、データ位置の最大値である11に等しいと判定された場合、即ち、注目サブバンドsb#nのすべての高音質サブバンドデータを注目データとして、そのサンプル値が、クラス分類適応処理によって求められた場合、クラス分類適応処理部113の予測演算部125は、その注目サブバンドsb#nの高音質サブバンドデータを、サブバンド合成部114に供給して、ステップS10に進む。
【0158】
ステップS10では、コントローラ112は、変数nが、1フレームのサブバンドのサブバンドナンバの最大値である31に等しいかどうかを判定する。ステップS10において、変数nが、サブバンドナンバの最大値である31に等しくないと判定された場合、ステップS11に進み、コントローラ112は、変数nを1だけインクリメントして、ステップS3に戻り、以下、同様の処理が繰り返される。
【0159】
また、ステップS10において、変数nが、サブバンドナンバの最大値である31に等しいと判定された場合、即ち、注目フレームのサブバンドすべてについて、そのサブバンドデータがあるかどうかを判定し、サブバンドデータがないサブバンドについては、クラス分類適応処理によって、高音質サブバンドデータを求めた場合、ステップS12に進み、サブバンド合成部114は、デコーダ111から供給される、サブバンドデータが存在するサブバンドと、クラス分類適応処理部113から供給される、クラス分類適応処理によってサブバンドデータが生成されたサブバンドとを合成することにより、注目フレームの時間領域のオーディオデータを復号して出力する。
【0160】
従って、この場合、サブバンドデータがないサブバンド、即ち、ビット割り当てが0のサブバンドについては、クラス分類適応処理によってサブバンドデータが生成され、そのサブバンドデータを用いて、時間領域のオーディオデータが復号される。その結果、ビット割り当てが0とされたサブバンドに対応する周波数成分を有するオーディオデータ、即ち、高音質のオーディオデータを、符号化ビットストリームのデータ量を増加させずに復号することができる。
【0161】
なお、サブバンド合成部114は、クラス分類適応処理部113でサブバンドデータが求められるサブバンドを、コントローラ112から供給されるサブバンドナンバから認識する。
【0162】
ステップS12の処理後は、ステップS13に進み、デコーダ111は、注目フレームの次のフレームの符号化ビットストリームが供給されたかどうかを判定する。ステップS13において、注目フレームの次のフレームの符号化ビットストリームが供給されたと判定された場合、その符号化ビットストリームが供給されたフレームを、新たに注目フレームとして、ステップS1に戻り、以下、同様の処理が繰り返される。
【0163】
また、ステップS13において、注目フレームの次のフレームの符号化ビットストリームが供給されていないと判定された場合、処理を終了する。
【0164】
次に、図11は、図6の復号装置102のタップ係数記憶部124に記憶させるクラスごとのタップ係数を学習する学習装置の一実施の形態の構成例を示している。
【0165】
教師データ生成部131は、タップ係数の学習の教師となる教師データを生成し、学習部134に供給する。
【0166】
即ち、図6の復号装置102のクラス分類適応処理部113では、オーディオデータをMPEG1オーディオレイヤ1方式で符号化して復号することにより得られるサブバンドデータ(低音質サブバンドデータ)から予測タップを生成し、その予測タップを用いて、式(1)の積和演算を行うことにより、オーディオデータを単にサブバンド符号化して得られるサブバンドデータ(高音質サブバンドデータ)が求められる。
【0167】
従って、式(1)の積和演算に用いるタップ係数としては、オーディオデータを単にサブバンド符号化して得られるサブバンドデータを、教師データとするとともに、オーディオデータをMPEG1オーディオレイヤ1方式で符号化して復号することにより得られるサブバンドデータを生徒データとして、その生徒データと教師データとを、式(1)によって関係付けるものを求めれば良い。
【0168】
そこで、教師データ生成部131は、学習用データベース141とエンコーダ142で構成されており、オーディオデータを単にサブバンド符号化して得られる高音質サブバンドデータを、教師データとして生成する。
【0169】
即ち、学習用データベース141は、タップ係数の学習に用いる学習用データとして、時間領域のディジタルオーディオデータを記憶している。なお、ここでは、学習用データベース141に記憶させるオーディオデータは、例えば、図5の符号化装置101で符号化対象となるオーディオデータと同一の音質のものとする。但し、学習用データベース141に記憶させるオーディオデータは、例えば、図5の符号化装置101で符号化対象となるオーディオデータよりも高音質のものとすることが可能である。
【0170】
エンコーダ142は、図5の符号化装置101と同様に構成されており、学習用データベース141に記憶されたオーディオデータを読み出し、MPEG1オーディオレイヤ1方式で符号化し、その結果得られる符号化ビットストリームを、生徒データ生成部132に供給する。さらに、エンコーダ142は、オーディオデータを、MPEG1オーディオレイヤ1方式で符号化する過程で得られる高音質サブバンドデータ、即ち、オーディオデータをサブバンド符号化して得られるサブバンドデータを、教師データとして、学習部134の足し込み部154に供給する。
【0171】
生徒データ生成部132は、デコーダ143で構成されており、オーディオデータをMPEG1オーディオレイヤ1方式で符号化して復号することにより得られるサブバンドデータを、生徒データとして生成する。
【0172】
即ち、デコーダ143は、図6のデコーダ111と同様に構成されており、教師データ生成部131のエンコーダ142が出力する符号化ビットストリームをMPEG1オーディオレイヤ1方式で復号し、その復号の過程で得られるサブバンドデータ(低音質サブバンドデータ)とサイドインフォメーションを、生徒データとして、学習部134に供給する。さらに、デコーダ143は、符号化ビットストリームをMPEG1オーディオレイヤ1方式で復号する過程で得られるサイドインフォメーションを、コントローラ133に供給する。
【0173】
コントローラ133は、デコーダ143から供給されるサイドインフォメーションのフレームを注目フレームとして、その注目フレームにおいて、ビット割り当てが0ビットとされたサブバンドがあるかどうかを、デコーダ143から供給されるサイドインフォメーションに基づいて判定し、さらに、ビット割り当てが0ビットとされたサブバンド(ヌルサブバンド)がある場合には、そのヌルサブバンドを表すサブバンドナンバを認識する。また、コントローラ133は、ヌルサブバンドの高音質サブバンドデータとしての教師データを、順次、注目データとして選択し、その注目データのデータ位置と、その注目データのサブバンド(ヌルサブバンド)を表すサブバンドナンバを、注目データを特定するための特定情報として、学習部134に供給する。
【0174】
学習部134は、教師データ生成部131から供給される教師データとしての高音質サブバンドデータと、生徒データ生成部132から供給される生徒データとしての低音質サブバンドデータおよびサイドインフォメーションとの関係を学習することにより、式(1)により、教師データと生徒データとを関係付けるタップ係数を、クラスごとに求める。
【0175】
即ち、学習部134は、タップ生成部151および152、クラス分類部153、足し込み部154、タップ係数演算部155、並びにタップ係数記憶部156で構成されている。
【0176】
タップ生成部151と152は、図6のタップ生成部121と122における場合と同様に、コントローラ133が出力する注目データの特定情報としてのデータ位置とサブバンドナンバから、注目データとしての教師データを認識し、その注目データについて、生徒データ生成部143から供給される生徒データから、予測タップとクラスタップを、それぞれ生成する。
【0177】
即ち、タップ生成部151は、注目データについて、生徒データ生成部143から供給される生徒データを用い、図6のタップ生成部121が生成するのと同一のタップ構造の予測タップを構成し、足し込み部154に供給する。タップ生成部152も、注目データについて、生徒データ生成部143から供給される生徒データを用い、図6のタップ生成部122が生成するのと同一のタップ構造のクラスタップを構成し、クラス分類部153に供給する。
【0178】
クラス分類部153は、タップ生成部152から供給されるクラスタップと、コントローラ133から供給される注目データの特定情報としてのデータ位置およびサブバンドナンバに基づき、注目データのクラス分類を、図6のクラス分類部123と同様に行う。クラス分類部153でクラス分類が行われることにより得られる注目データのクラスを表すクラスコードは、クラス分類部153から足し込み部154に供給される。
【0179】
足し込み部154およびタップ係数演算部155は、教師データ生成部131から供給される教師データのうちの注目データと、タップ生成部151から供給される予測タップとを用い、教師データと生徒データとの関係を、クラス分類部153から供給されるクラスごとに学習することにより、クラスごとのタップ係数を求める。
【0180】
即ち、足し込み部154は、クラス分類部153が出力するクラスコードごとに、タップ生成部151から供給される予測タップと、教師データ生成部131から供給される教師データのうちの注目データとを対象とした、式(8)の足し込みを行う。
【0181】
具体的には、足し込み部154は、クラス分類部153から供給されるクラスコードに対応するクラスごとに、予測タップを構成する生徒データとしての低音質サブバンドデータ(あるいは、サイドインフォメーション)xn,kを用い、式(8)の左辺の行列における低音質サブバンドデータどうしの乗算(xn,kn',k)と、サメーション(Σ)に相当する演算を行う。
【0182】
さらに、足し込み部154は、やはり、クラス分類部153から供給されるクラスコードに対応するクラスごとに、予測タップを構成する生徒データとしての低音質サブバンドデータxn,kと注目データとなっている教師データである高音質サブバンドデータykを用い、式(8)の右辺のベクトルにおける低音質サブバンドデータxn,kおよび高音質サブバンドデータykの乗算(xn,kk)と、サメーション(Σ)に相当する演算を行う。
【0183】
足し込み部154は、教師データ生成部131から供給される教師データとしての高音質サブバンドデータすべてを注目データとしして、上述の足し込みを行うことにより、各クラスについて、式(8)に示した正規方程式をたてると、その正規方程式を、タップ係数演算部155に供給する。
【0184】
タップ係数演算部155は、足し込み部154から、各クラスについての式(8)の正規方程式を受信し、その正規方程式を解くことにより、クラスごとのタップ係数を求めて出力する。
【0185】
タップ係数記憶部156は、タップ係数演算部155が出力するクラスごとのタップ係数を記憶する。
【0186】
次に、図12のフローチャートを参照して、図11の学習装置において行われる、クラスごとのタップ係数を求める学習処理について説明する。
【0187】
まず最初に、教師データ生成部131は、学習用データベース141に記憶されたオーディオデータのフレームのうちの1フレームを注目フレームとし、ステップS41において、その注目フレームの教師データを生成する。即ち、教師データ生成部131では、エンコーダ142が、学習用データベース141から、注目フレームのオーディオデータを読み出し、MPEG1オーディオレイヤ1方式で符号化する。そして、エンコーダ142は、注目フレームのオーディオデータの符号化の過程で得られる注目フレームの高音質サブバンドデータを、教師データとして、学習部134の足し込み部154に供給するとともに、その符号化の結果得られる注目フレームの符号化ビットストリームを生徒データ生成部132に供給する。
【0188】
その後、ステップS42に進み、生徒データ生成部132は、教師データ生成部131から供給される注目フレームの符号化ビットストリームから生徒データを生成する。即ち、ステップS42では、生徒データ生成部132のデコーダ143が、注目フレームの符号化ビットストリームを、MPEG1オーディオレイヤ1方式で復号する。そして、デコーダ143は、注目フレームの符号化ビットストリームの復号過程で得られる低音質サブバンドデータとサイドインフォメーションを、生徒データとして、学習部134に供給する。さらに、デコーダ143は、サイドインフォメーションを、コントローラ133にも供給する。
【0189】
そして、ステップS43に進み、コントローラ133は、注目フレームのサブバンドのサブバンドナンバを表す変数nに、初期値としての、例えば0をセットし、ステップS44に進む。ステップS44では、コントローラ133は、注目フレームのサイドインフォメーションを参照することにより、サブバンドナンバ#nで特定される注目フレームのサブバンドsb#nに、生徒データとしてのサブバンドデータが存在するかどうか、即ち、注目フレームのサブバンドsb#nに対するビット割り当てが0かどうかを判定する。
【0190】
ステップS44において、注目フレームのサブバンドsb#nに、サブバンドデータが存在すると判定された場合、ステップS45乃至S52をスキップして、ステップS53に進む。
【0191】
また、ステップS44において、注目フレームのサブバンドsb#nに、生徒データとしてのサブバンドデータが存在しないと判定された場合、即ち、注目フレームのサブバンドsb#nに対するビット割り当てが0である場合、ステップS45に進み、コントローラ133は、その注目フレームのサブバンドsb#nを、注目サブバンドとして選択し、ステップS46に進む。
【0192】
ステップS46では、コントローラ133は、サブバンドの高音質サブバンドデータのデータ位置を表す変数iに、初期値としての、例えば0をセットし、ステップS47に進む。
【0193】
ステップS47では、コントローラ133は、注目サブバンドsb#nの、データ位置#iで特定される高音質サブバンドデータとしての教師データd#iを、注目データとして選択する。さらに、ステップS47では、コントローラ133は、注目データd#iを特定する特定情報として、注目データd#iのデータ位置#iと、注目サブバンドsb#nのサブバンドナンバ#nを、学習部134に供給し、ステップS48に進む。
【0194】
ステップS48では、タップ生成部151と152が、コントローラ133からの特定情報としてのデータ位置#iとサブバンドナンバ#nで特定される高音質サブバンドデータとしての教師データd#iを、注目データd#iとして認識し、その注目データd#iについて、生徒データ生成部132から供給される生徒データとしての低音質サブバンドデータとサイドインフォメーションを用い、図6のタップ生成部121と122における場合と同一のタップ構造の予測タップとクラスタップを、それぞれ生成する。
【0195】
ステップS48で得られた予測タップは、タップ生成部151から足し込み部154に供給され、また、クラスタップは、タップ生成部152からクラス分類部153に供給され、その後、ステップS48からステップS49に進む。
【0196】
ステップS49では、クラス分類部153が、タップ生成部152から供給されるクラスタップの他、コントローラ133から供給される注目サブバンドsb#nのサブバンドナンバ#n、および注目データd#iのデータ位置#iに基づき、注目データについて、図6のクラス分類部123と同一のクラス分類を行い、その結果得られる注目データのクラスを表すクラスコードを、足し込み部154に供給して、ステップS50に進む。
【0197】
ステップS50では、足し込み部154が、教師データ生成部131から供給される注目フレームの教師データのうちの注目データとなっているものを選択する。さらに、ステップS50では、足し込み部154が、クラス分類部153から供給されるクラスコードが表す注目データのクラスごとに、タップ生成部151から供給される予測タップ、および注目データを対象とした、上述した式(8)における足し込みを行い、ステップS51に進む。
【0198】
ステップS51では、コントローラ133が、変数iが、データ位置の最大値である11に等しいかどうかを判定し、11に等しくないと判定した場合、ステップS52に進む。ステップS52では、コントローラ133は、変数iを1だけインクリメントして、ステップS47に戻り、以下、同様の処理が繰り返される。
【0199】
また、ステップS51において、変数iが、データ位置の最大値である11に等しいと判定された場合、即ち、注目サブバンドsb#nのすべての高音質サブバンドデータを注目データとして、ステップS50の足し込みが行われた場合、ステップS53に進み、コントローラ133は、変数nが、1フレームのサブバンドのサブバンドナンバの最大値である31に等しいかどうかを判定する。ステップS53において、変数nが、サブバンドナンバの最大値である31に等しくないと判定された場合、ステップS54に進み、コントローラ133は、変数nを1だけインクリメントして、ステップS44に戻り、以下、同様の処理が繰り返される。
【0200】
また、ステップS53において、変数nが、サブバンドナンバの最大値である31に等しいと判定された場合、即ち、注目フレームのサブバンドすべてについて、そのサブバンドデータがあるかどうかを判定し、サブバンドデータがないサブバンドを注目サブバンドとして、ステップS50の足し込みを行った場合、ステップS55に進み、教師データ生成部131は、注目フレームの次のフレームのオーディオデータが、学習用データベース141に記憶されているかどうかを判定する。ステップS55において、注目フレームの次のフレームのオーディオデータが、学習用データベース141に記憶されていると判定された場合、その注目フレームの次のフレームを、新たに注目フレームとして、ステップS41に戻り、以下、同様の処理が繰り返される。
【0201】
また、ステップS55において、注目フレームの次のフレームのオーディオデータが、学習用データベース141に記憶されていないと判定された場合、即ち、学習用データベース141に記憶されたオーディオデータのフレームすべてを注目フレームとして、ステップS50の足し込みが行われた場合、足し込み部154は、いままでのステップS50における足し込みによって、クラスごとに得られた式(8)の正規方程式を、タップ係数演算部155に供給して、ステップS56に進む。
【0202】
ステップS56では、タップ係数演算部155は、足し込み部154から供給される、各クラスごとの式(8)の正規方程式を解くことにより、クラスごとのタップ係数を求め、タップ係数記憶部156に供給して記憶させ、処理を終了する。
【0203】
以上のようにして、タップ係数記憶部156に記憶されたクラスごとのタップ係数が、図6の復号装置102におけるタップ係数記憶部124に記憶されている。
【0204】
なお、以上のようなタップ係数の学習処理において、用意する学習用データ等によっては、タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じる場合があり得るが、そのようなクラスについては、例えば、タップ係数演算部155において、デフォルトのタップ係数を出力するようにすること等が可能である。あるいは、タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じた場合には、新たに学習用データを用意して学習用データベース141に記憶させ、再度、タップ係数の学習を行うようにしても良い。
【0205】
以上のように、図11の学習装置では、オーディオデータをサブバンド符号化して得られるサブバンドデータを、教師データとするとともに、そのオーディオデータをMPEG1オーディオレイヤ1方式で符号化して復号することにより得られるサブバンドデータ(さらには、サイドインフォメーション)を生徒データとして、その教師データと生徒データとの関係を学習することにより、式(1)によって、教師データと生徒データとを関係付けるタップ係数を、クラスごとに求めるようにしたので、図6の復号装置102において、そのようなタップ係数を用いて、ビット割り当てが0とされたサブバンドのサブバンドデータを求めることにより、高音質のオーディオデータを復号することが可能となる。
【0206】
次に、図13は、図5の復号装置102の第2の構成例を示している。なお、図中、図6における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図13の復号装置102は、基本的に、図6における場合と同様に構成されている。但し、サブバンド合成部114には、デコーダ111が出力する低音質サブバンドデータが供給されないようになっている。さらに、クラス分類適応処理部113は、ビット割り当てが0のサブバンドの高音質サブバンドデータの他、ビット割り当てが1ビット以上のサブバンドの高音質サブバンドデータも求めて、サブバンド合成部114に供給するようになっている。即ち、クラス分類適応処理部113は、すべてのサブバンドについて、高音質サブバンドデータを求めて、サブバンド合成部114に供給するようになっている。
【0207】
なお、図13の実施の形態では、クラス分類適応処理部113からサブバンド合成部114に対して、すべてのサブバンドの高音質サブバンドデータが供給されることから、図6の実施の形態における場合のように、サブバンド合成部114において、クラス分類適応処理部113から供給されるサブバンドデータのサブバンドが、いずれのサブバンドナンバのものであるかを、特に認識する必要がないので、サブバンド合成部114には、コントローラ112が出力する特定情報としてのサブバンドナンバとデータ位置が供給されないようになっている(供給する必要がない)。
【0208】
次に、図14のフローチャートを参照して、図13の復号装置102による復号処理について説明する。
【0209】
図13の復号装置102では、上述したように、クラス分類適応処理部113は、すべてのサブバンドについて、高音質サブバンドデータを求めて、サブバンド合成部114に供給するようになっている。
【0210】
即ち、デコーダ111は、あるフレームの符号化ビットストリームを受信すると、そのフレームを、注目フレームとし、ステップS61において、その注目フレームについて、図10のステップS1における場合と同様の通常デコード処理を行う。
【0211】
ステップS61において、デコーダ111が通常デコード処理を行うことにより得られる注目フレームのサイドインフォメーションは、コントローラ112とクラス分類適応処理部113に供給され、さらに、注目フレームの低音質サブバンドデータ(MPEG1オーディオレイヤ1方式で符号化されて復号されたサブバンドデータ)は、クラス分類適応処理部113に供給される。
【0212】
そして、ステップS62に進み、コントローラ112は、注目フレームのサブバンドのサブバンドナンバを表す変数nに、初期値としての、例えば0をセットし、ステップS63に進む。ステップS63では、コントローラ112は、注目フレームのサブバンドsb#nを、注目サブバンドとして選択し、ステップS64に進む。
【0213】
ステップS64では、コントローラ112は、サブバンドの高音質サブバンドデータのデータ位置を表す変数iに、初期値としての、例えば0をセットし、ステップS65に進む。
【0214】
ステップS65では、コントローラ112は、注目サブバンドsb#nの、データ位置#iで特定される高音質サブバンドデータd#iを、注目データとして選択する。さらに、ステップS65では、コントローラ112は、注目データd#iを特定する特定情報として、注目データd#iのデータ位置#iと、注目サブバンドsb#nのサブバンドナンバ#nを、クラス分類適応処理部113に供給し、ステップS66に進む。
【0215】
ステップS66では、クラス分類適応処理部113が、注目データd#iを求めるクラス分類適応処理を行う。即ち、ステップS66では、クラス分類適応処理部113が、図10のステップS7における場合と同様のクラス分類適応処理を行うことにより、注目データd#iを求め、ステップS67に進む。
【0216】
ステップS67では、コントローラ112が、変数iが、データ位置の最大値である11に等しいかどうかを判定し、11に等しくないと判定した場合、ステップS68に進む。ステップS68では、コントローラ112は、変数iを1だけインクリメントして、ステップS65に戻り、以下、同様の処理が繰り返される。
【0217】
また、ステップS67において、変数iが、データ位置の最大値である11に等しいと判定された場合、即ち、注目サブバンドsb#nのすべての高音質サブバンドデータを注目データとして、そのサンプル値が、クラス分類適応処理によって求められた場合、クラス分類適応処理部113の予測演算部125は、その注目サブバンドsb#nの高音質サブバンドデータを、サブバンド合成部114に供給して、ステップS69に進む。
【0218】
ステップS69では、コントローラ112は、変数nが、1フレームのサブバンドのサブバンドナンバの最大値である31に等しいかどうかを判定する。ステップS69において、変数nが、サブバンドナンバの最大値である31に等しくないと判定された場合、ステップS70に進み、コントローラ112は、変数nを1だけインクリメントして、ステップS63に戻り、以下、同様の処理が繰り返される。
【0219】
また、ステップS69において、変数nが、サブバンドナンバの最大値である31に等しいと判定された場合、即ち、注目フレームのサブバンドすべてについて、クラス分類適応処理によって、高音質サブバンドデータを求めた場合、ステップS71に進み、サブバンド合成部114は、クラス分類適応処理部113から供給された、クラス分類適応処理によってサブバンドデータが生成された注目フレームのサブバンドを合成することにより、注目フレームの時間領域のオーディオデータを復号して出力する。
【0220】
従って、この場合、ビット割り当てが0とされたサブバンド(ヌルサブバンド)についてだけでなく、すべてのサブバンドについて、クラス分類適応処理によって高音質サブバンドデータが生成され、その高音質サブバンドデータを用いて、時間領域のオーディオデータが復号される。即ち、この場合、符号化装置101(図5)においてビット割り当てが0とされたサブバンドについては、そのサブバンドのサブバンドデータが、いわば創造され、サブバンド合成に用いられる。また、符号化装置101においてビット割り当てが1以上とされたサブバンドについては、符号化装置101における量子化などに起因して生じる歪みを除去(軽減)したサブバンドデータが創造され、サブバンド合成に用いられる。その結果、より高音質のオーディオデータを、符号化ビットストリームのデータ量を増加させずに復号することができる。
【0221】
ステップS71の処理後は、ステップS72に進み、デコーダ111は、注目フレームの次のフレームの符号化ビットストリームが供給されたかどうかを判定する。ステップS72において、注目フレームの次のフレームの符号化ビットストリームが供給されたと判定された場合、その符号化ビットストリームが供給されたフレームを、新たに注目フレームとして、ステップS61に戻り、以下、同様の処理が繰り返される。
【0222】
また、ステップS72において、注目フレームの次のフレームの符号化ビットストリームが供給されていないと判定された場合、処理を終了する。
【0223】
次に、図13の復号装置102のクラス分類適応処理部113では、ヌルサブバンドの高音質サブバンドデータだけでなく、すべてのサブバンドの高音質サブバンドデータが求められる。このため、図13のタップ係数記憶部124は、ヌルサブバンドの高音質サブバンドデータだけでなく、すべてのサブバンドの高音質サブバンドデータを求めるためのタップ係数を記憶している。
【0224】
ここで、図13の復号装置102のクラス分類適応処理部113では、オーディオデータをMPEG1オーディオレイヤ1方式で符号化して復号することにより得られるサブバンドデータ(低音質サブバンドデータ)から予測タップを生成し、その予測タップを用いて、式(1)の積和演算を行うことにより、オーディオデータを単にサブバンド符号化して得られるサブバンドデータ(高音質サブバンドデータ)が求められる。
【0225】
従って、式(1)の積和演算に用いるタップ係数としては、オーディオデータを単にサブバンド符号化して得られるサブバンドデータを、教師データとするとともに、オーディオデータをMPEG1オーディオレイヤ1方式で符号化して復号することにより得られるサブバンドデータを生徒データとして、その生徒データと教師データとを、式(1)によって関係付けるものを求めれば良い。
【0226】
このような教師データと生徒データとを関係付けるタップ係数は、上述した図11の学習装置において求めることができるが、図11の学習装置で行われる図12の学習処理では、ヌルサブバンドだけが注目サブバンドとされ、ヌルサブバンドについて得られる教師データと生徒データを用いて、タップ係数が求められる。
【0227】
一方、図13の復号装置102では、ヌルサブバンドの高音質サブバンドデータだけでなく、すべてのサブバンドの高音質サブバンドデータが求められるため、その高音質サブバンドデータを求めるのに用いるタップ係数は、ヌルサブバンドだけでなく、すべてのサブバンドについて得られる教師データと生徒データを用いて求める(学習する)必要がある。
【0228】
そこで、図13の復号装置102のタップ係数記憶部124に記憶させるタップ係数は、図11の学習装置に、図12の学習処理に代えて、図15のフローチャートにしたがった学習処理を行わせることで求めることができる。
【0229】
即ち、図15の学習処理では、教師データ生成部131は、学習用データベース141に記憶されたオーディオデータのフレームのうちの1フレームを注目フレームとし、ステップS81において、図12のステップS41における場合と同様に、注目フレームのオーディオデータをMPEG1オーディオレイヤ1方式で符号化し、その符号化の過程で得られる注目フレームの高音質サブバンドデータを、教師データとして、学習部134の足し込み部154に供給するとともに、その符号化の結果得られる注目フレームの符号化ビットストリームを生徒データ生成部132に供給する。
【0230】
その後、ステップS82に進み、生徒データ生成部132は、図12のステップS42における場合と同様に、教師データ生成部131から供給される注目フレームの符号化ビットストリームを、MPEG1オーディオレイヤ1方式で復号し、その復号過程で得られる低音質サブバンドデータとサイドインフォメーションを、生徒データとして、学習部134に供給する。さらに、ステップS82では、生徒データ生成部132は、サイドインフォメーションを、コントローラ133にも供給する。
【0231】
そして、ステップS83に進み、コントローラ133は、注目フレームのサブバンドのサブバンドナンバを表す変数nに、初期値としての、例えば0をセットし、ステップS84に進む。ステップS84では、コントローラ133は、注目フレームのサブバンドsb#nを、注目サブバンドとして選択し、ステップS85に進む。
【0232】
ステップS85では、コントローラ133は、サブバンドの高音質サブバンドデータのデータ位置を表す変数iに、初期値としての、例えば0をセットし、ステップS86に進む。
【0233】
ステップS86では、コントローラ133は、注目サブバンドsb#nの、データ位置#iで特定される高音質サブバンドデータとしての教師データd#iを、注目データとして選択する。そして、ステップS87に進み、以下、ステップS87乃至95において、図12のステップS48乃至S56における場合とそれぞれ同様の処理が行われ、処理を終了する。
【0234】
図15の学習処理では、図12の学習処理における場合のように、サブバンドsb#nがヌルサブバンドであるかどうかを判定せず(図12のS45)、すべてのサブバンドが注目サブバンドとして処理されるので、すべてのサブバンドについて得られる教師データと生徒データを用いて、タップ係数が求められる。
【0235】
従って、図13の復号装置102では、図15の学習処理により得られるタップ係数を用いて、すべてのサブバンドについて、教師データと同音質の高音質サブバンドデータが求められるので、より高音質のオーディオデータを復号することができる。
【0236】
次に、図16は、図5の復号装置102の第3の構成例を示している。なお、図中、図6または図13における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図16の復号装置102は、サブバンド合成部114が設けられていない他は、図13における場合と、基本的に同様に構成されている。
【0237】
但し、図6および図13の復号装置102は、周波数領域のオーディオデータである低音質サブバンドデータから高音質サブバンドデータを求め、その高音質サブバンドデータを用いて、サブバンド合成部114においてサブバンド合成を行うことにより、高音質の時間領域のオーディオデータを復号するようになっていたが、図16の復号装置102は、周波数領域のオーディオデータである低音質サブバンドデータから、いわば直接、高音質の時間領域のオーディオデータを復号するようになっている。
【0238】
即ち、図16の実施の形態では、クラス分類適応処理113は、クラス分類適応処理によって、周波数領域のオーディオデータである低音質サブバンドデータを、高音質の時間領域のオーディオデータ(以下、適宜、高音質オーディオデータという)に変換する。
【0239】
そのため、図16の復号装置102では、コントローラ112は、クラス分類適応処理部113において求めようとする高音質の時間領域のオーディオデータを、順次、注目データとして選択する。さらに、コントローラ112は、注目データのフレームにおける、その注目データのデータ位置などを、注目データを特定するための特定情報として、クラス分類適応処理部113に供給する。また、コントローラ112は、デコーダ111から供給されるサイドインフォメーションに基づき、注目データのフレームである注目フレームにおいてサブバンドデータが抜けているサブバンド、即ち、符号化装置101(図5)においてビット割り当てが0ビットとされたサブバンド(ヌルサブバンド)があるかどうかを判定し、さらに、ヌルサブバンドがある場合には、そのヌルサブバンドを表すサブバンドナンバを認識し、クラス分類適応処理部113に供給する。
【0240】
クラス分類適応処理部113は、デコーダ111から供給されるサブバンドデータ(低音質サブバンドデータ)、およびコントローラ112から供給される注目データのデータ位置と注目フレームにおけるヌルサブバンドのサブバンドナンバなどを用いて、クラス分類適応処理を行うことにより、注目データとしての高音質オーディオデータを求めて(予測して)出力する。
【0241】
即ち、図16のクラス分類適応処理部113において、タップ生成部121は、コントローラ112から供給されるデータ位置によって特定される高音質オーディオデータを注目データとして選択し、その注目データ(の予測値)を求めるのに用いる予測タップを、デコーダ111から供給される、MPEG1オーディオレイヤ1方式により復号されたサブバンドデータである低音質サブバンドデータ、さらには、やはり、デコーダ111から供給されるサイドインフォメーションから生成し、予測演算部125に供給する。
【0242】
具体的には、タップ生成部121は、例えば、注目データのフレームである注目フレームの低音質サブバンドデータの幾つか、さらには注目フレームのサイドインフォメーションの幾つかを抽出し、それらを所定の順番で並べたものを、予測タップとする。
【0243】
ここで、本実施の形態においては、少なくとも、注目フレームの低音質サブバンドデータのすべてを含む予測タップを構成するのが望ましい。
【0244】
即ち、本実施の形態において、符号化装置101(図5)では、上述したように、オーディオデータがMPEG1オーディオレイヤ1方式で符号化される。MPEG1オーディオレイヤ1方式では、図17に示すように、384サンプルのオーディオデータs0,s1,・・・,s383を1フレームとして、その1フレームのオーディオデータがサブバンド符号化(分割)されることにより、32のサブバンドsb0,sb1,・・・,sb31のサブバンドデータとされる。従って、32のサブバンドsb0乃至sb31それぞれには、そのフレームの時間領域のオーディオデータすべての周波数成分が反映されるから、注目データとされた時間領域のオーディオデータを予測するのに、32のサブバンドsb0乃至sb31のうちの一部のサブバンドデータしか用いないのは、注目データの予測精度が劣化することがあり得る。このため、図16の復号装置102では、予測タップは、注目フレームの低音質サブバンドデータのすべてを含むものとするのが望ましい。
【0245】
なお、図17に示すように、1つのサブバンドは、12サンプルのサブバンドデータから構成され、さらに、1フレームは、32のサブバンドから構成されるから、予測タップを、注目フレームの低音質サブバンドデータのすべてを含めて構成した場合、予測タップのタップ数は、少なくとも、384(=12×32)タップとなる。
【0246】
また、予測タップは、注目フレームのサブバンドデータやサイドインフォメーションの他、例えば、注目フレームに近接するフレームのサブバンドデータやサイドインフォメーションなどを含めて構成することが可能である。
【0247】
図16に戻り、タップ生成部122は、タップ生成部121と同様に、コントローラ112から供給されるデータ位置の高音質オーディオデータを、注目データとして選択し、その注目データのクラス分類に用いるクラスタップを、デコーダ111から供給される低音質サブバンドデータとサイドインフォメーションから生成し、クラス分類部123に出力する。
【0248】
クラス分類部123は、タップ生成部122からのクラスタップ、さらには、例えば、コントローラ112から供給される注目フレームにおけるヌルサブバンドのサブバンドナンバや、注目データのデータ位置に基づいて、注目データをクラス分類し、その結果得られる注目データのクラスに対応するクラスコードを、タップ係数記憶部124に供給する。
【0249】
タップ係数記憶部124は、後述する図19の学習装置によって、学習の教師となる高音質オーディオデータである教師データと、学習の生徒となる低音質サブバンドデータである生徒データとの関係を、1以上のクラスごとに学習することにより得られたタップ係数を記憶している。そして、タップ係数記憶部124は、クラス分類部123から注目データのクラスコードが供給されると、そのクラスコードに対応するクラスのタップ係数を読み出すことにより、注目データのクラスのタップ係数を取得し、予測演算部125に供給する。
【0250】
予測演算部125は、タップ係数記憶部124から供給される、注目データのクラスのタップ係数w1,w2,・・・と、タップ生成部121からの注目データの予測タップ(を構成する各低音質サブバンドデータのサンプル値)x1,x2,・・・とを用いて、式(1)に示した積和演算を行うことにより、注目データy(の予測値)としての高音質オーディオデータを求める。予測演算部125は、以上のようにして、1フレームを構成する高音質オーディオデータのサンプル値すべてが得られると、その1フレームの高音質オーディオデータを出力する。
【0251】
次に、図18のフローチャートを参照して、図16の復号装置102の処理(復号処理)について説明する。
【0252】
デコーダ111は、あるフレームの符号化ビットストリームを受信すると、そのフレームを、注目フレームとし、ステップS101において、その注目フレームについて、図10のステップS1における場合と同様の通常デコード処理を行う。
【0253】
ステップS101の通常デコード処理において得られる、MPEG1オーディオレイヤ1方式で符号化されて復号された注目フレームのサブバンドデータ、即ち、低音質サブバンドデータは、クラス分類適応処理部113に供給され、また、注目フレームのサイドインフォメーションは、コントローラ112とクラス分類適応処理部113に供給される。
【0254】
その後は、ステップS102に進み、コントローラ112は、注目フレームの高音質オーディオデータのデータ位置を表す変数mに、初期値としての、例えば0をセットし、ステップS103に進む。
【0255】
ステップS103では、コントローラ112は、注目フレームの、データ位置#mで特定される高音質オーディオデータs#mを、注目データとして選択する。さらに、ステップS103では、コントローラ112は、注目データs#mを特定するデータ位置#mと、注目フレームにおけるヌルサブバンドのサブバンドナンバを、クラス分類適応処理部113に供給し、ステップS104に進む。
【0256】
ステップS104では、クラス分類適応処理部113が、注目データs#mを求めるクラス分類適応処理を行う。
【0257】
即ち、ステップS104のクラス分類適応処理では、まず最初に、ステップS121において、タップ生成部121と122が、コントローラ112からのデータ位置#mで特定される高音質オーディオデータs#mを、注目データs#mとして認識し、その注目データs#mについて、デコーダ111から供給される低音質サブバンドデータ、さらには、必要に応じてサイドインフォメーションを用い、予測タップとクラスタップを生成する。
【0258】
ステップS121で得られた予測タップは、タップ生成部121から予測演算部125に供給され、また、クラスタップは、タップ生成部121からクラス分類部123に供給され、その後、ステップS121からステップS122に進む。
【0259】
ステップS122では、クラス分類部123が、タップ生成部122から供給されるクラスタップの他、コントローラ112から供給される注目フレームにおけるヌルサブバンドのサブバンドナンバ、および注目データs#mのデータ位置#mに基づいて、注目データをクラス分類し、その結果得られる注目データのクラスを表すクラスコードを、タップ係数記憶部124に供給して、ステップS123に進む。
【0260】
ステップS123では、タップ係数記憶部124が、そこに記憶されているクラスごとのタップ係数から、クラス分類部123から供給されるクラスコードが表す注目データs#mのクラスのタップ係数を読み出すことにより取得し、その注目データs#mのクラスのタップ係数を、予測演算部125に供給して、ステップS124に進む。
【0261】
ステップS124では、予測演算部125が、タップ生成部121から供給される注目データs#mについての予測タップと、タップ係数記憶部124から供給される注目データs#mのクラスのタップ係数とを用いて、式(1)の積和演算を行うことにより、注目データs#mを求める。
【0262】
以上のステップS121乃至S124の処理によって、ステップS104のクラス分類適応処理が終了し、ステップS105に進む。ステップS105では、コントローラ112が、変数mが、時間領域の1フレームのオーディオデータのデータ位置の最大値である383(図17)に等しいかどうかを判定し、383に等しくないと判定した場合、ステップS106に進む。ステップS106では、コントローラ112は、変数mを1だけインクリメントして、ステップS103に戻り、以下、同様の処理が繰り返される。
【0263】
また、ステップS105において、変数mが、データ位置の最大値である383に等しいと判定された場合、即ち、注目フレームのすべての高音質オーディオデータを注目データとして、そのサンプル値が、クラス分類適応処理によって求められた場合、クラス分類適応処理部113の予測演算部125は、その注目フレームの高音質オーディオデータを出力する。
【0264】
従って、この場合、符号化装置101(図5)が出力する符号化ビットストリームのデータ量を増加させずに、高音質のオーディオデータを復号することができる。
【0265】
その後、ステップS107に進み、デコーダ111は、注目フレームの次のフレームの符号化ビットストリームが供給されたかどうかを判定する。ステップS107において、注目フレームの次のフレームの符号化ビットストリームが供給されたと判定された場合、その符号化ビットストリームが供給されたフレームを、新たに注目フレームとして、ステップS101に戻り、以下、同様の処理が繰り返される。
【0266】
また、ステップS107において、注目フレームの次のフレームの符号化ビットストリームが供給されていないと判定された場合、処理を終了する。
【0267】
次に、図19は、図16の復号装置102のタップ係数記憶部124に記憶させるクラスごとのタップ係数を学習する学習装置の一実施の形態の構成例を示している。なお、図中、図11における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図19の学習装置は、基本的に、図11の学習装置と同様に構成されている。
【0268】
但し、図11の学習装置では、教師データ生成部131が学習用データベース141とエンコーダ142で構成されているのに対して、図19の学習装置では、教師データ生成部131が学習用データベース141で構成されている。また、図11の学習装置では、生徒データ生成部132がデコーダ143で構成されているのに対して、図19の学習装置では、生徒データ生成部132がエンコーダ142とデコーダ143で構成されている。
【0269】
ここで、図16の復号装置102におけるクラス分類適応処理部113では、オーディオデータをMPEG1オーディオレイヤ1方式で符号化して復号することにより得られるサブバンドデータ(低音質サブバンドデータ)から予測タップを生成し、その予測タップを用いて、式(1)の積和演算を行うことにより、高音質オーディオデータが求められる。
【0270】
従って、式(1)の積和演算に用いるタップ係数としては、高音質オーディオデータを、教師データとするとともに、その高音質オーディオデータをMPEG1オーディオレイヤ1方式で符号化して復号することにより得られる低音質サブバンドデータを生徒データとして、その生徒データと教師データとを、式(1)によって関係付けるものを求めれば良い。
【0271】
そこで、図19の学習装置では、教師データ生成部131は、学習用データベース141で構成されており、その学習用データベース141に記憶されているオーディオデータを読み出し、教師データとして、生徒データ生成部132と、学習部134の足し込み部154に供給する。
【0272】
生徒データ生成部132は、エンコーダ142とデコーダ143で構成されている。エンコーダ142は、教師データ生成部131から供給される教師データとしての高音質オーディオデータをMPEG1オーディオレイヤ1方式で符号化し、その符号化によって得られる符号化ビットストリームを、デコーダ143に供給する。デコーダ143は、エンコーダ142が出力する符号化ビットストリームをMPEG1オーディオレイヤ1方式で復号し、その復号の過程で得られるサブバンドデータ(低音質サブバンドデータ)とサイドインフォメーションを、生徒データとして、学習部134に供給する。さらに、デコーダ143は、符号化ビットストリームをMPEG1オーディオレイヤ1方式で復号する過程で得られるサイドインフォメーションを、コントローラ133に供給する。
【0273】
コントローラ133は、デコーダ143から供給されるサイドインフォメーションのフレームを注目フレームとして、その注目フレームにおいて、ビット割り当てが0ビットとされたサブバンド(ヌルサブバンド)がある場合には、そのヌルサブバンドを表すサブバンドナンバを、学習部134に供給する。また、コントローラ133は、注目フレームの高音質データとしての教師データを、順次、注目データとして選択し、その注目データのデータ位置を、学習部134に供給する。
【0274】
学習部134は、教師データ生成部131から供給される教師データとしての高音質オーディオデータと、生徒データ生成部132から供給される生徒データとしての低音質サブバンドデータ(およびサイドインフォメーション)との関係を学習することにより、式(1)により、教師データと生徒データとを関係付けるタップ係数を、クラスごとに求める。
【0275】
即ち、タップ生成部151と152は、コントローラ133が出力するデータ位置から、注目フレームにおいて注目データとなっている教師データを認識し、その注目データについて、生徒データ生成部143から供給される生徒データから、図16のタップ生成部121と122における場合と同一のタップ構造の予測タップとクラスタップを、それぞれ生成する。そして、タップ生成部151は、注目データの予測タップを、足し込み部154に供給し、タップ生成部152は、注目データのクラスタップを、クラス分類部153に供給する。
【0276】
クラス分類部153は、タップ生成部152から供給されるクラスタップと、コントローラ133から供給される注目データのデータ位置と、注目フレームにおけるヌルサブバンドのサブバンドナンバに基づき、図16のクラス分類部123における場合と同一のクラス分類を行う。クラス分類部153でクラス分類が行われることにより得られる注目データのクラスを表すクラスコードは、クラス分類部153から足し込み部154に供給される。
【0277】
足し込み部154およびタップ係数演算部155は、図11における場合と同様に、教師データ生成部131から供給される教師データのうちの注目データと、タップ生成部151から供給される予測タップとを用い、教師データと生徒データとの関係を、クラス分類部153から供給されるクラスごとに学習することにより、クラスごとのタップ係数を求める。タップ係数記憶部156は、図11における場合と同様に、タップ係数演算部155で求められるクラスごとのタップ係数を記憶する。
【0278】
次に、図20フローチャートを参照して、図19の学習装置において行われる、クラスごとのタップ係数を求める学習処理について説明する。
【0279】
まず最初に、教師データ生成部131は、学習用データベース141に記憶された高音質オーディオデータのフレームのうちの1フレームを注目フレームとし、ステップS131において、その注目フレームの教師データを生成する。即ち、教師データ生成部131は、学習用データベース141から、注目フレームの高音質オーディオデータを読み出し、教師データとして、生徒データ生成部132と、学習部134の足し込み部154に供給する。
【0280】
その後、ステップS132に進み、生徒データ生成部132は、教師データ生成部131から供給される注目フレームの高音質オーディオデータから生徒データを生成する。即ち、ステップS132では、生徒データ生成部132のデコーダ143が、注目フレームの高音質オーディオデータをMPEG1オーディオレイヤ1方式で符号化し、その符号化により得られる符号化ビットストリームを、デコーダ143に供給する。デコーダ143は、その符号化ビットストリームをMPEG1オーディオレイヤ1方式で復号し、その復号過程で得られる低音質サブバンドデータとサイドインフォメーションを、生徒データとして、学習部134に供給する。さらに、デコーダ143は、サイドインフォメーションを、コントローラ133にも供給する。
【0281】
そして、ステップS133に進み、コントローラ133は、注目フレームの高音質オーディオデータのデータ位置を表す変数iに、初期値としての、例えば0をセットし、ステップS134に進む。
【0282】
ステップS134では、コントローラ133は、注目フレームの、データ位置#mで特定される高音質オーディオデータとしての教師データs#mを、注目データとして選択する。さらに、ステップS134では、コントローラ133は、注目データs#mのデータ位置#mと、注目フレームにおけるヌルサブバンドのサブバンドナンバ#nを、学習部134に供給し、ステップS135に進む。
【0283】
ステップS135では、タップ生成部151と152が、コントローラ133からのデータ位置#mで特定される高音質オーディオデータとしての教師データs#mを、注目データs#mとして認識し、その注目データs#mについて、生徒データ生成部132から供給される生徒データとしての低音質サブバンドデータ(とサイドインフォメーション)を用い、図16のタップ生成部121と122における場合と同一のタップ構造の予測タップとクラスタップを、それぞれ生成する。
【0284】
ステップS135で得られた予測タップは、タップ生成部151から足し込み部154に供給され、また、クラスタップは、タップ生成部151からクラス分類部153に供給され、その後、ステップS135からステップS136に進む。
【0285】
ステップS136では、クラス分類部153が、タップ生成部152から供給されるクラスタップの他、コントローラ133から供給される注目フレームにおけるヌルサブバンドのサブバンドナンバ、および注目データs#mのデータ位置#mに基づき、注目データについて、図16のクラス分類部123と同一のクラス分類を行い、その結果得られる注目データのクラスを表すクラスコードを、足し込み部154に供給して、ステップS137に進む。
【0286】
ステップS137では、足し込み部154が、教師データ生成部131から供給される注目フレームの教師データのうちの注目データとなっているものを選択する。さらに、ステップS37では、足し込み部154が、クラス分類部153から供給されるクラスコードが表す注目データのクラスごとに、タップ生成部151から供給される予測タップ、および注目データを対象とした、上述した式(8)における足し込みを行い、ステップS138に進む。
【0287】
ステップS138では、コントローラ133が、変数mが、1フレームにおける高音質オーディオデータのデータ位置の最大値である383に等しいかどうかを判定し、383に等しくないと判定した場合、ステップS139に進む。ステップS139では、コントローラ133は、変数mを1だけインクリメントして、ステップS134に戻り、以下、同様の処理が繰り返される。
【0288】
また、ステップS138において、変数mが、データ位置の最大値である383に等しいと判定された場合、即ち、注目フレームの高音質オーディオデータとしての教師データすべてを注目データとして、ステップS137の足し込みが行われた場合、ステップS140に進み、教師データ生成部131は、注目フレームの次のフレームの高音質オーディオデータが、学習用データベース141に記憶されているかどうかを判定する。ステップS140において、注目フレームの次のフレームの高音質オーディオデータが、学習用データベース141に記憶されていると判定された場合、その注目データの次のフレームを、新たに注目フレームとして、ステップS131に戻り、以下、同様の処理が繰り返される。
【0289】
また、ステップS140において、注目フレームの次のフレームの高音質オーディオデータが、学習用データベース141に記憶されていないと判定された場合、即ち、学習用データベース141に記憶された高音質オーディオデータのフレームすべてを注目フレームとして、ステップS137の足し込みが行われた場合、足し込み部154は、いままでのステップS137における足し込みによって、クラスごとに得られた式(8)の正規方程式を、タップ係数演算部155に供給して、ステップS141に進む。
【0290】
ステップS141では、タップ係数演算部155は、足し込み部154から供給される、各クラスごとの式(8)の正規方程式を解くことにより、クラスごとのタップ係数を求め、タップ係数記憶部156に供給して記憶させ、処理を終了する。
【0291】
以上のようにして、タップ係数記憶部156に記憶されたクラスごとのタップ係数が、図16の復号装置102におけるタップ係数記憶部124に記憶されている。
【0292】
以上のように、図19の学習装置では、高音質オーディオデータを、教師データとするとともに、その高音質オーディオデータをMPEG1オーディオレイヤ1方式で符号化して復号することにより得られるサブバンドデータ(さらには、サイドインフォメーション)を生徒データとして、その教師データと生徒データとの関係を学習することにより、式(1)によって、教師データと生徒データとを関係付けるタップ係数を、クラスごとに求めるようにしたので、図16の復号装置102において、そのようなタップ係数を用いてクラス分類適応処理を行うことにより、教師データに相当する高音質のオーディオデータを復号することが可能となる。
【0293】
次に、図21は、図5の復号装置102の第4の構成例を示している。なお、図中、図16における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図21の復号装置102は、基本的に、図16における場合と同様に構成されている。
【0294】
但し、図16の実施の形態では、デコーダ111が、符号化ビットストリームをMPEG1オーディオレイヤ1方式で復号する過程で得られる低音質サブバンドデータを出力するのに対して、図21の実施の形態では、デコーダ111が、その低音質サブバンドデータに代えて、符号化ビットストリームをMPEG1オーディオレイヤ1方式で復号することにより得られる時間領域のオーディオデータ、即ち、低音質のオーディオデータ(以下、適宜、低音質オーディオデータという)を出力するようになっている。
【0295】
そして、図21の復号装置102では、クラス分類適応処理部113が、デコーダ111が出力する時間領域の低音質オーディオデータを、時間領域の高音質オーディオデータに変換する。
【0296】
そのため、図21の復号装置102では、クラス分類適応処理部113のタップ生成部121と122が、低音質サブバンドデータに代えて、デコーダ111が出力する低音質オーディオデータを用いて、予測タップとクラスタップを、それぞれ生成するようになっている。
【0297】
次に、図22のフローチャートを参照して、図21の復号装置102の処理(復号処理)について説明する。
【0298】
デコーダ111は、あるフレームの符号化ビットストリームを受信すると、そのフレームを、注目フレームとし、ステップS151において、その注目フレームについて、通常デコード処理を行う。
【0299】
即ち、本実施の形態では、符号化ビットストリームは、オーディオデータをMPEG1オーディオレイヤ1方式で符号化したものであり、ステップS1では、注目フレームの符号化ビットストリームが、MPEG1オーディオレイヤ1方式で復号される。
【0300】
具体的には、ステップS151の通常デコード処理では、まず最初に、ステップS161において、デコーダ111は、注目フレームの符号化ビットストリームを、量子化サブバンドデータと、その他のデータであるサイドインフォメーションに分解し、注目フレームのサイドインフォメーションを、コントローラ112とクラス分類適応処理部113に供給する。そして、デコーダ111は、ステップS162において、注目フレームの量子化サブバンドデータを逆量子化し、さらに、ステップS163に進み、その逆量子化の結果得られるサブバンドデータを用いてサブバンド合成を行う。これにより、デコーダ111は、MPEG1オーディオレイヤ1方式で符号化されて復号されたオーディオデータ、即ち、低音質オーディオデータを得て、クラス分類適応処理部113に供給する。
【0301】
以上のステップS161乃至S163の処理によって、ステップS151の通常デコード処理が終了し、その後は、ステップS152に進む。
【0302】
ステップS152に進み、コントローラ112は、注目フレームの高音質オーディオデータのデータ位置を表す変数mに、初期値としての、例えば0をセットし、ステップS153に進む。
【0303】
ステップS153では、コントローラ112は、注目フレームの、データ位置#mで特定される高音質オーディオデータs#mを、注目データとして選択する。さらに、ステップS153では、コントローラ112は、注目データs#mを特定するデータ位置#mと、注目フレームにおけるヌルサブバンドのサブバンドナンバを、クラス分類適応処理部113に供給し、ステップS154に進む。
【0304】
ステップS154では、クラス分類適応処理部113が、注目データs#mを求めるクラス分類適応処理を行う。
【0305】
即ち、ステップS154のクラス分類適応処理では、まず最初に、ステップS171において、タップ生成部121と122が、コントローラ112からのデータ位置#mで特定される高音質オーディオデータs#mを、注目データs#mとして認識し、その注目データs#mについて、デコーダ111から供給される低音質オーディオデータ、さらには、必要に応じてサイドインフォメーションを用い、予測タップとクラスタップを生成する。
【0306】
ステップS171で得られた予測タップは、タップ生成部121から予測演算部125に供給され、また、クラスタップは、タップ生成部121からクラス分類部123に供給され、その後、ステップS171からステップS172に進む。
【0307】
ステップS172では、クラス分類部123が、タップ生成部122から供給されるクラスタップの他、コントローラ112から供給される注目フレームにおけるヌルサブバンドのサブバンドナンバ、および注目データs#mのデータ位置#mに基づいて、注目データをクラス分類し、その結果得られる注目データのクラスを表すクラスコードを、タップ係数記憶部124に供給して、ステップS173に進む。
【0308】
ステップS173では、タップ係数記憶部124が、そこに記憶されているクラスごとのタップ係数から、クラス分類部123から供給されるクラスコードが表す注目データs#mのクラスのタップ係数を読み出すことにより取得し、その注目データs#mのクラスのタップ係数を、予測演算部125に供給して、ステップS174に進む。
【0309】
ステップS174では、予測演算部125が、タップ生成部121から供給される注目データs#mについての予測タップと、タップ係数記憶部124から供給される注目データs#mのクラスのタップ係数とを用いて、式(1)の積和演算を行うことにより、注目データs#mを求める。
【0310】
以上のステップS171乃至S174の処理によって、ステップS154のクラス分類適応処理が終了し、ステップS155に進む。ステップS155では、コントローラ112が、変数mが、時間領域の1フレームのオーディオデータのデータ位置の最大値である383(図17)に等しいかどうかを判定し、383に等しくないと判定した場合、ステップS156に進む。ステップS156では、コントローラ112は、変数mを1だけインクリメントして、ステップS153に戻り、以下、同様の処理が繰り返される。
【0311】
また、ステップS155において、変数mが、データ位置の最大値である383に等しいと判定された場合、即ち、注目フレームのすべての高音質オーディオデータを注目データとして、そのサンプル値が、クラス分類適応処理によって求められた場合、クラス分類適応処理部113の予測演算部125は、その注目フレームの高音質オーディオデータを出力する。
【0312】
従って、この場合も、図18における場合と同様に、符号化装置101(図5)が出力する符号化ビットストリームのデータ量を増加させずに、高音質のオーディオデータを復号することができる。
【0313】
その後、ステップS157に進み、デコーダ111は、注目フレームの次のフレームの符号化ビットストリームが供給されたかどうかを判定する。ステップS157において、注目フレームの次のフレームの符号化ビットストリームが供給されたと判定された場合、その符号化ビットストリームが供給されたフレームを、新たに注目フレームとして、ステップS151に戻り、以下、同様の処理が繰り返される。
【0314】
また、ステップS157において、注目フレームの次のフレームの符号化ビットストリームが供給されていないと判定された場合、処理を終了する。
【0315】
次に、図23は、図21の復号装置102のタップ係数記憶部124に記憶させるクラスごとのタップ係数を学習する学習装置の一実施の形態の構成例を示している。なお、図中、図19における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図23の学習装置は、基本的に、図19の学習装置と同様に構成されている。
【0316】
但し、図19の学習装置では、生徒データ生成部132において、デコーダ143が、エンコーダ142が出力する符号化ビットストリームをMPEG1オーディオレイヤ1方式により復号し、その復号の結果得られる低音質オーディオデータを、低音質サブバンドデータに代えて、生徒データとして出力するようになっている。
【0317】
即ち、図21の復号装置102におけるクラス分類適応処理部113では、オーディオデータをMPEG1オーディオレイヤ1方式で符号化して復号することにより得られるオーディオデータ(低音質オーディオデータ)から予測タップを生成し、その予測タップを用いて、式(1)の積和演算を行うことにより、高音質オーディオデータが求められる。
【0318】
従って、式(1)の積和演算に用いるタップ係数としては、高音質オーディオデータを、教師データとするとともに、その高音質オーディオデータをMPEG1オーディオレイヤ1方式で符号化して復号することにより得られる低音質オーディオデータを生徒データとして、その生徒データと教師データとを、式(1)によって関係付けるものを求めれば良い。
【0319】
そこで、図23の学習装置では、上述したように、生徒データ生成部132が、低音質サブバンドデータに代えて、低音質オーディオデータを、生徒データとして出力するようになっている。
【0320】
次に、図24フローチャートを参照して、図23の学習装置において行われる、クラスごとのタップ係数を求める学習処理について説明する。
【0321】
まず最初に、教師データ生成部131は、学習用データベース141に記憶された高音質オーディオデータのフレームのうちの1フレームを注目フレームとし、ステップS181において、その注目フレームの教師データを生成する。即ち、教師データ生成部131は、学習用データベース141から、注目フレームの高音質オーディオデータを読み出し、教師データとして、生徒データ生成部132と、学習部134の足し込み部154に供給する。
【0322】
その後、ステップS182に進み、生徒データ生成部132は、教師データ生成部131から供給される注目フレームの高音質オーディオデータから生徒データを生成する。即ち、ステップS182では、生徒データ生成部132のデコーダ143が、注目フレームの高音質オーディオデータをMPEG1オーディオレイヤ1方式で符号化し、その符号化により得られる符号化ビットストリームを、デコーダ143に供給する。デコーダ143は、その符号化ビットストリームをMPEG1オーディオレイヤ1方式で復号し、その復号過程で得られる注目フレームのサイドインフォメーションと、その復号の結果得られる注目データの低音質オーディオデータを、生徒データとして、学習部134に供給する。さらに、デコーダ143は、サイドインフォメーションを、コントローラ133にも供給する。
【0323】
そして、ステップS183に進み、コントローラ133は、注目フレームの高音質オーディオデータのデータ位置を表す変数iに、初期値としての、例えば0をセットし、ステップS184に進む。ステップS184では、コントローラ133は、注目フレームの、データ位置#mで特定される高音質オーディオデータとしての教師データs#mを、注目データとして選択する。さらに、ステップS184では、コントローラ133は、注目データs#mのデータ位置#mと、注目フレームにおけるヌルサブバンドのサブバンドナンバ#nを、学習部134に供給し、ステップS185に進む。
【0324】
ステップS185では、タップ生成部151と152が、コントローラ133からのデータ位置#mで特定される高音質オーディオデータとしての教師データs#mを、注目データs#mとして認識し、その注目データs#mについて、生徒データ生成部132から供給される生徒データとしての低音質オーディオデータとサイドインフォメーションを用い、図21のタップ生成部121と122における場合と同一のタップ構造の予測タップとクラスタップを、それぞれ生成する。
【0325】
ステップS185で得られた予測タップは、タップ生成部151から足し込み部154に供給され、また、クラスタップは、タップ生成部151からクラス分類部153に供給され、その後、ステップS185からステップS186に進む。
【0326】
ステップS186では、クラス分類部153が、タップ生成部152から供給されるクラスタップの他、コントローラ133から供給される注目フレームにおけるヌルサブバンドのサブバンドナンバ、および注目データs#mのデータ位置#mに基づき、注目データについて、図21のクラス分類部123と同一のクラス分類を行い、その結果得られる注目データのクラスを表すクラスコードを、足し込み部154に供給して、ステップS187に進む。
【0327】
ステップS187では、足し込み部154が、教師データ生成部131から供給される注目フレームの教師データのうちの注目データとなっているものを選択する。さらに、ステップS187では、足し込み部154が、クラス分類部153から供給されるクラスコードが表す注目データのクラスごとに、タップ生成部151から供給される予測タップ、および注目データを対象とした、上述した式(8)における足し込みを行い、ステップS188に進む。
【0328】
ステップS188では、コントローラ133が、変数mが、1フレームにおける高音質オーディオデータのデータ位置の最大値である383に等しいかどうかを判定し、383に等しくないと判定した場合、ステップS189に進む。ステップS189では、コントローラ133は、変数mを1だけインクリメントして、ステップS184に戻り、以下、同様の処理が繰り返される。
【0329】
また、ステップS188において、変数mが、データ位置の最大値である383に等しいと判定された場合、即ち、注目フレームの高音質オーディオデータとしての教師データすべてを注目データとして、ステップS187の足し込みが行われた場合、ステップS190に進み、教師データ生成部131は、注目フレームの次のフレームの高音質オーディオデータが、学習用データベース141に記憶されているかどうかを判定する。ステップS190において、注目フレームの次のフレームの高音質オーディオデータが、学習用データベース141に記憶されていると判定された場合、その注目データの次のフレームを、新たに注目フレームとして、ステップS181に戻り、以下、同様の処理が繰り返される。
【0330】
また、ステップS190において、注目フレームの次のフレームの高音質オーディオデータが、学習用データベース141に記憶されていないと判定された場合、即ち、学習用データベース141に記憶された高音質オーディオデータのフレームすべてを注目フレームとして、ステップS187の足し込みが行われた場合、足し込み部154は、いままでのステップS187における足し込みによって、クラスごとに得られた式(8)の正規方程式を、タップ係数演算部155に供給して、ステップS191に進む。
【0331】
ステップS191では、タップ係数演算部155は、足し込み部154から供給される、各クラスごとの式(8)の正規方程式を解くことにより、クラスごとのタップ係数を求め、タップ係数記憶部156に供給して記憶させ、処理を終了する。
【0332】
以上のようにして、タップ係数記憶部156に記憶されたクラスごとのタップ係数が、図21の復号装置102におけるタップ係数記憶部124に記憶されている。
【0333】
以上のように、図23の学習装置では、高音質オーディオデータを、教師データとするとともに、その高音質オーディオデータをMPEG1オーディオレイヤ1方式で符号化して復号することにより得られる低音質オーディオデータ(さらには、サイドインフォメーション)を生徒データとして、その教師データと生徒データとの関係を学習することにより、式(1)によって、教師データと生徒データとを関係付けるタップ係数を、クラスごとに求めるようにしたので、図21の復号装置102において、そのようなタップ係数を用いてクラス分類適応処理を行うことにより、教師データに相当する高音質のオーディオデータを復号することが可能となる。
【0334】
次に、図25は、図5の復号装置102の第5の構成例を示している。
【0335】
図25の実施の形態においては、復号装置102は、復号ブロック161とレベル補正部162で構成されている。
【0336】
復号ブロック161には、図5の符号化装置101が出力する符号化ビットストリームが供給されるようになっている。復号ブロック161は、例えば、図6、図13、図16、または図21に示した復号装置102と同様に構成されており、そこに供給される符号化ビットストリームのフレームを、順次、注目フレームとし、その注目フレームの符号化ビットストリームを、時間領域のデータであるオーディオデータに復号して、レベル補正部162に供給する。さらに、復号ブロック161は、注目フレームの符号化ビットストリームの復号の過程で認識することができる注目フレームにおけるヌルサブバンドのサブバンドナンバも、レベル補正部162に供給する。
【0337】
ここで、注目フレームにおいては、必ずしも、ヌルサブバンドが存在するわけではなく、存在しない場合もある。このため、注目フレームにヌルバンドが存在しない場合、即ち、注目フレームのすべてのサブバンドに、1ビット以上が割り当てられている場合、復号ブロック161は、サブバンドナンバとして取り得ない値を、ヌルバンドが存在しない旨の情報として、レベル補正部162に供給する。なお、このことは、上述した図16等の復号装置102においても同様である。
【0338】
レベル補正部162は、サブバンドナンバによって特定されるサブバンドの周波数成分に基づいて、復号ブロック161から供給される注目ブロックのオーディオデータを補正して出力する。
【0339】
即ち、図26および図27は、オーディオデータのパワースペクトルと静寂時の最小可聴限界を示している。
【0340】
ここで、図26および図27において、細い実線がオーディオデータのパワースペクトルを示し、太い実線が最小可聴限界を示している。
【0341】
MPEG1オーディオレイヤ1方式では、オーディオデータのパワースペクトルが最小可聴限界以上の各サブバンドについて、そのオーディオデータを人間が感知することができるレベルとしてのマスキングスレッショルドが求められる。ここで、図26および図27では、点線がマスキングスレッショルドを示している。
【0342】
さらに、MPEG1オーディオレイヤ1方式では、各サブバンドに、サブバンドデータを量子化することにより生じる量子化雑音が、マスキングスレッショルドより小さくなるように、ビット割り当てが行われる。
【0343】
従って、MPEG1オーディオレイヤ1方式では、最小可聴限界以下のレベルのサブバンドデータしかないサブバンドについては、ビット割り当てが0とされる。
【0344】
このことは、MPEG1オーディオレイヤ1方式において、ビット割り当てが0とされたサブバンド、即ち、ヌルサブバンドのパワーは、最小可聴限界以下であることを意味する。
【0345】
従って、例えば、図25の復号ブロック161が出力する注目フレームのオーディオデータにおけるサブバンドsb#nがヌルサブバンドであるとした場合、そのヌルサブバンドsb#nに対応する周波数帯域成分は、図26に示すように、最小可聴限界以下でなければ、復号ブロック161が出力する注目ブロックのオーディオデータは、図5の符号化装置101で符号化されたオーディオデータを精度良く再現したものとは言えない。
【0346】
即ち、ヌルサブバンドsb#nに対応する周波数帯域成分が、図27に示すように、最小可聴限界以上である(より大きい)場合には、復号ブロック161が出力する注目ブロックのオーディオデータは、図5の符号化装置101で符号化されたオーディオデータを精度良く再現したものとは言えない。
【0347】
そこで、図25のレベル補正部162は、復号ブロック161が出力するオーディオデータにおけるヌルサブバンドsb#nに対応する周波数帯域成分が、最小可聴限界以上である場合に、そのオーディオデータのレベルを補正し、これにより、図5の符号化装置101で符号化されたオーディオデータを精度良く再現したオーディオデータを求めて出力するようになっている。
【0348】
即ち、レベル補正部162は、ラッチ部171、FFT部172、レベル調整部173、逆FFT部174、選択部175、および判定部176から構成されており、ラッチ部171には、復号ブロック161が出力する注目フレームのオーディオデータが供給され、判定部176には、復号ブロック161が出力する注目ブロックにおけるヌルサブバンドを表すサブバンドナンバが供給されるようになっている。
【0349】
ラッチ部171は、復号ブロック161が出力する注目フレームのオーディオデータをラッチし、FFT部172と選択部175に供給する。
【0350】
FFT部172は、ラッチ部171から供給される注目フレームのオーディオデータをFFT処理し、これにより、パワースペクトルに変換して、判定部176とレベル調整部173に供給する。
【0351】
レベル調整部173は、判定部176の制御にしたがい、パワースペクトルのレベルを調整し、そのレベル調整が行われた後のパワースペクトル(以下、適宜、正規化パワースペクトルという)を、逆FFT部174に供給する。
【0352】
逆FFT部174は、レベル調整部173から供給される正規化パワースペクトルを逆FFT処理し、これにより、時間領域のオーディオデータに変換する。ここで、正規化パワースペクトルを逆FFTすることにより得られる時間領域のオーディオデータを、以下、適宜、正規化オーディオデータという。
【0353】
選択部175には、上述したラッチ部171から、復号ブロック161が出力する注目フレームのオーディオデータが供給される他、逆FFT部174から、注目フレームの正規化オーディオデータが供給されるようになっている。選択部175は、判定部176の制御にしたがい、ラッチ部171からの注目フレームのオーディオデータか、または逆FFT部174からの注目フレームの正規化オーディオデータを選択し、その選択したオーディオデータを、注目フレームの最終的な復号結果として出力する。
【0354】
判定部176は、復号ブロック161から供給されるサブバンドナンバが表すサブバンド、即ち、ヌルサブバンドの最小可聴限界に応じた所定の閾値と、FFT部172から供給される注目フレームのパワースペクトルのうちの、復号ブロック161から供給されるサブバンドナンバが表すヌルサブバンドのレベルとを比較し、その比較結果に基づいて、レベル調整部173を制御する。また、判定部176は、選択部175も制御する。
【0355】
次に、図28のフローチャートを参照して、図25のレベル補正部162の処理(レベル補正処理)について説明する。
【0356】
復号ブロック161が注目フレームのオーディオデータと、その注目フレームにおけるヌルサブバンドのサブバンドナンバを出力すると、ステップS201において、ラッチ部171は、復号ブロック161が出力する注目フレームのオーディオデータをラッチし、ステップS202に進む。
【0357】
ステップS202では、判定部176が、復号ブロック161から供給されるサブバンドナンバに基づいて、注目フレームにヌルサブバンドが存在するかどうかを判定する。
【0358】
ステップS202において、注目フレームにヌルサブバンドが存在しないと判定された場合、即ち、復号ブロック161が出力したサブバンドナンバが、1フレームのサブバンドナンバとして取り得る値ではない場合、ステップS203に進み、判定部176は、ラッチ部171の出力を選択するように、選択部175を制御する。これにより、さらに、ステップS203では、選択部175が、ラッチ部171でラッチされている注目フレームのオーディオデータを選択し、注目フレームの最終的な復号結果として出力して、ステップS210に進む。
【0359】
従って、注目フレームにヌルバンドが存在しない場合は、復号ブロック161が出力する注目フレームのオーディオデータが、そのまま、注目フレームの最終的な復号結果として出力される。
【0360】
一方、ステップS202において、注目フレームにヌルサブバンドが存在すると判定された場合、即ち、復号ブロック161が出力したサブバンドナンバが、1フレームのサブバンドナンバとして取り得る値である場合、ステップS204に進み、FFT部172は、ラッチ部171でラッチされている注目フレームのオーディオデータをFFT処理し、これにより、注目フレームの時間領域のオーディオデータを、パワースペクトルに変換して、判定部176とレベル調整部173に供給し、ステップS205に進む。
【0361】
ステップS205では、判定部176が、復号ブロック176から供給されるサブバンドナンバが表すヌルサブバンドの最小可聴限界と、FFT部172から供給される注目フレームのパワースペクトルのうちの、復号ブロック176から供給されるサブバンドナンバが表すヌルサブバンドの最大レベル(以下、適宜、ヌルサブバンドレベルという)とを比較し、ヌルサブバンドレベルが、そのヌルサブバンドの最小可聴限界に、所定のオフセット△を加えた所定の閾値εよりも大きいヌルサブバンドが存在するかどうかを判定する。
【0362】
即ち、1フレームには、1つのヌルサブバンドだけでなく、複数のヌルサブバンドが存在する場合がある。ステップS205では、注目フレームにおける1以上のヌルサブバンドの中に、ヌルサブバンドレベルが、そのヌルサブバンドの最小可聴限界に所定のオフセット△を加えた所定の閾値εよりも大きいヌルサブバンドがあるかどうかが判定される。
【0363】
ステップS205において、注目フレームに、ヌルサブバンドレベルが所定の閾値εよりも大きいヌルサブバンドがないと判定された場合、即ち、注目フレームにヌルサブバンドは存在するが、そのヌルサブバンドの最小可聴限界に所定のオフセット△を加えた所定の閾値εよりも大きいヌルサブバンドレベルのサブバンドは存在しない場合、注目ブロックのオーディオデータの補正は必要ないとして、ステップS203に進み、上述したように、選択部203は、ラッチ部171でラッチされている注目フレームのオーディオデータを選択し、注目フレームの最終的な復号結果として出力して、ステップS210に進む。
【0364】
また、ステップS205において、注目フレームに、ヌルサブバンドレベルが所定の閾値εよりも大きいヌルサブバンドがあると判定された場合、即ち、注目フレームに、そのヌルサブバンドの最小可聴限界を大きく超えるヌルサブバンドレベルのサブバンドが存在する場合、ステップS206に進み、判定部176は、ヌルサブバンドレベルと最小可聴限界との差分([ヌルサブバンドレベル]−[最小可聴限界]が最大のヌルサブバンド(以下、適宜、最大ヌルサブバンドという)を検出する。
【0365】
即ち、注目フレームに、ヌルサブバンドレベルが所定の閾値εよりも大きいヌルサブバンドが1つだけある場合、ステップS205では、そのヌルサブバンドが、最大ヌルサブバンドとして検出される。また、注目フレームに、ヌルサブバンドレベルが所定の閾値εよりも大きいヌルサブバンドが複数ある場合、ステップS205では、その複数のヌルサブバンドの中から、ヌルサブバンドレベルと最小可聴限界との差分が最大のヌルサブバンドが、最大ヌルサブバンドとして検出される。
【0366】
その後、ステップS207に進み、判定部207は、レベル調整部173を制御することにより、FFT部172が出力する注目フレームのパワースペクトルのレベルを、最大ヌルサブバンドのヌルサブバンドレベルに基づいて調整させる。即ち、これにより、レベル調整部173は、例えば、FFT部172が出力する注目フレームのパワースペクトルの各サブバンドのパワーそれぞれを、最大ヌルサブバンドのヌルサブバンドレベルで除算することにより、あるいは、FFT部172が出力する注目フレームのパワースペクトルの各サブバンドのパワーそれぞれから、最大ヌルサブバンドのヌルサブバンドレベルを減算することにより、注目フレームのパワースペクトルのレベルを調整した正規化パワースペクトルを求め、逆FFT部174に供給する。
【0367】
そして、ステップS208に進み、逆FFT部174は、レベル調整部173から供給される正規化パワースペクトルを逆FFT処理し、これにより、時間領域のオーディオデータである正規化オーディオデータを求めて、選択部175に出力し、ステップS209に進む。
【0368】
ステップS209では、判定部176は、逆FFT部174の出力を選択するように、選択部175を制御する。これにより、さらに、ステップS209では、選択部175が、逆FFT部174が出力する注目フレームの正規化オーディオデータを選択し、注目フレームの最終的な復号結果として出力して、ステップS210に進む。
【0369】
従って、注目フレームに、そのヌルサブバンドの最小可聴限界を大きく超えるヌルサブバンドレベルのサブバンドが存在する場合には、復号ブロック161が出力する注目フレームのオーディオデータが補正され、これにより、ヌルサブバンドレベルが最小可聴限界を超えない正規化オーディオデータとされる。そして、この正規化オーディオデータが、注目フレームの最終的な復号結果として出力される。
【0370】
以上のように、ヌルサブバンドの最小可聴限界を大きく超えるヌルサブバンドレベルのサブバンドが存在する場合に、復号ブロック161が出力するオーディオデータを補正するようにしたので、符号化装置101(図5)で符号化されたオーディオデータにより近い復号結果を得ることが可能となる。
【0371】
ところで、図5の符号化装置101では、オーディオデータが、MPEG1オーディオレイヤ1方式で符号化されるため、時間領域のオーディオデータは、サブバンド分割によって、同一周波数帯域幅のサブバンドに分割される。従って、各サブバンドの周波数帯域幅は、同一である。
【0372】
サブバンド分割では、このような周波数帯域幅が同一のサブバンドへの分割の他、例えば、いわゆるログスケール(log scale)等で周波数帯域幅が増加するサブバンドへの分割を行うことも可能である。
【0373】
そこで、例えば、2の累乗で周波数帯域幅が増加するサブバンド分割を考えると、即ち、図29に示すように、サブバンドsb0の周波数帯域幅がB×20、サブバンドsb1の周波数帯域幅がB×21,・・・,サブバンドSb#nの周波数帯域幅がB×2n,・・・となるサブバンド分割を考えると、各サブバンドのサブバンドデータのサンプル数は、そのサブバンドの周波数帯域幅に比例した数になる。
【0374】
即ち、同一周波数帯域幅のサブバンドへのサブバンド分割では、各サブバンドの周波数帯域幅は同一幅なので、サブバンドデータのサンプル数も、各サブバンドで同一になるが、2の累乗で周波数帯域幅が増加するサブバンド分割では、各サブバンドの周波数帯域幅が異なるので、サブバンドデータのサンプル数も、各サブバンドで異なる数になる。
【0375】
この場合、例えば、図7で説明したように、注目サブバンドsb#nと、その注目サブバンドsb#nの1/2倍の周波数帯域のローサブバンドsb#nL、および2倍の周波数帯域のハイサブバンドsb#nHを、タップ用サブバンドとして選択し、そのタップ用サブバンドのすべてのサブバンドデータを、タップとすることとすると、注目サブバンドがいずれのサブバンドであるかによって、タップ数が変化してしまい、クラス分類適応処理を行うにあたり、あまり望ましくない。
【0376】
そこで、符号化装置101(図5)において、2の累乗で周波数帯域幅が増加するサブバンド分割が行われる場合には、上述のようなタップ数の変化を防止するために、タップ用サブバンドとされたサブバンドsb#nについては、例えば、図29に示すように、そのサブバンドデータのうちの2nサンプルごとのサブバンドデータをタップとするようにすることができる。この場合、例えば、サブバンドsb1がタップ用サブバンドとして選択されたときには、そのサブバンドデータのうちの2サンプルごとのサブバンドが、タップとされることになる。
【0377】
以上のように、タップ用サブバンドとされたサブバンドsb#nについて、そのサブバンドデータのうちの2nサンプルごとのサブバンドデータをタップとするようにすることで、タップ用サブバンドとされたサブバンドそれぞれからは、同一の数のサブバンドデータがタップとされることとなり、その結果、注目サブバンドがいずれのサブバンドであるかによるタップ数の変化を防止することが可能となる。
【0378】
ここで、上述の場合には、タップ用サブバンドとされたサブバンドsb#nについて、そのサブバンドデータのうちの2nサンプルごとのサブバンドデータをタップとするようにしたが、その他、例えば、2nサンプルごとのサブバンドデータの平均値などをタップとするようにすることも可能である。
【0379】
なお、周波数帯域幅が同一のサブバンドへのサブバンド分割では、上述したように、注目サブバンドsb#nのサブバンドナンバ#nから、注目サブバンドsb#nの1/2倍の周波数帯域のローサブバンドsb#nLと、注目サブバンドsb#nの2倍の周波数帯域のハイサブバンドsb#nHを特定することができるが、2の累乗で周波数帯域幅が増加するサブバンド分割が行われる場合には、注目サブバンドsb#nの1/2倍の周波数帯域のローサブバンドsb#nLと、注目サブバンドsb#nの2倍の周波数帯域のハイサブバンドsb#nHは、例えば、次のようにして特定される。
【0380】
即ち、注目サブバンドsb#nの中心周波数(周波数帯域幅の最小周波数と最大周波数の平均値)が求められ、例えば、その中心周波数の1/2倍または2倍の周波数に最も近い中心周波数のサブバンドが、それぞれ、ローサブバンドsb#nLまたはハイサブバンドsb#nHとされる。
【0381】
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【0382】
そこで、図30は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【0383】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク205やROM203に予め記録しておくことができる。
【0384】
あるいはまた、プログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体211に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体211は、いわゆるパッケージソフトウエアとして提供することができる。
【0385】
なお、プログラムは、上述したようなリムーバブル記録媒体211からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部208で受信し、内蔵するハードディスク205にインストールすることができる。
【0386】
コンピュータは、CPU(Central Processing Unit)202を内蔵している。CPU202には、バス201を介して、入出力インタフェース210が接続されており、CPU202は、入出力インタフェース210を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部207が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)203に格納されているプログラムを実行する。あるいは、また、CPU202は、ハードディスク205に格納されているプログラム、衛星若しくはネットワークから転送され、通信部208で受信されてハードディスク205にインストールされたプログラム、またはドライブ209に装着されたリムーバブル記録媒体211から読み出されてハードディスク205にインストールされたプログラムを、RAM(Random Access Memory)204にロードして実行する。これにより、CPU202は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU202は、その処理結果を、必要に応じて、例えば、入出力インタフェース210を介して、LCD(Liquid Crystal Display)やスピーカ等で構成される出力部206から出力、あるいは、通信部208から送信、さらには、ハードディスク205に記録等させる。
【0387】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
【0388】
また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【0389】
なお、本実施の形態では、注目サブバンドsb#nと、その注目サブバンドsb#nの1/2倍の周波数帯域のローサブバンドsb#nLと2倍の周波数帯域のハイサブバンドsb#nHを、タップ用サブバンドとして選択するようにしたが、ローサブバンドsb#nLとハイサブバンドsb#nHとしては、その他、例えば、1/3倍と3倍や、1/9倍と9倍、1/5倍と5倍の周波数帯域などの1/PとPのN乗倍のサブバンドを採用することが可能である(P,Nは、正の整数)。
【0390】
また、本実施の形態では、符号化装置101(図5)において、オーディオデータをMPEG1オーディオレイヤ1方式で符号化するようにしたが、オーディオデータの符号化方式としては、MPEG1オーディオレイヤ1方式以外に、例えば、前述したMPEG1オーディオレイヤ2,3や、MPEG2オーディオAAC、その他、時間領域のオーディオデータを周波数領域のオーディオデータに変換する周波数変換を利用するものを採用することが可能である。
【0391】
ここで、符号化装置101において、周波数変換によって、時間領域のオーディオデータを、例えば、MDCT係数に変換する場合には、復号装置102のクラス分類適応処理部113では、例えば、MDCTの基底のMDCT係数すべてによって、予測タップを構成するとともに、MDCT係数の変化パターンやレベルなどに基づいてクラス分類を行うようにすることができる。また、符号化装置101において、周波数変換としてFFTを採用し、時間領域のオーディオデータを、周波数領域のオーディオデータとしての周波数スペクトルに変換する場合には、復号装置102のクラス分類適応処理部113では、例えば、FFTによって得られる周波数スペクトルを表す複素数を構成する実数部や虚数部から予測タップを構成するとともに、周波数スペクトルの変化パターンや各周波数帯域ごとのパワー(周波数スペクトルを表す複素数の平方和の平方根)などに基づいてクラス分類を行うようにすることができる。
【0392】
【発明の効果】
以上の如く、本発明によれば、符号化ビットストリームのデータ量を増加させずに、高音質のオーディオデータを復号することが可能となる。
【図面の簡単な説明】
【図1】 MPEG1オーディオレイヤ1方式のエンコーダの構成例を示すブロック図である。
【図2】 MPEG1オーディオレイヤ1方式のデコーダの構成例を示すブロック図である。
【図3】 MPEG2オーディオAAC方式のエンコーダの構成例を示すブロック図である。
【図4】 MPEG2オーディオAAC方式のデコーダの構成例を示すブロック図である。
【図5】本発明を適用したデータ処理装置の一実施の形態の構成例を示すブロック図である。
【図6】復号装置102の第1の構成例を示すブロック図である。
【図7】タップ構造の例を説明する図である。
【図8】タップ構造の例を説明する図である。
【図9】タップ構造の例を説明する図である。
【図10】復号装置102の処理を説明するフローチャートである。
【図11】タップ係数を学習する学習装置の第1の構成例を示すブロック図である。
【図12】学習装置の処理を説明するフローチャートである。
【図13】復号装置102の第2の構成例を示すブロック図である。
【図14】復号装置102の処理を説明するフローチャートである。
【図15】学習装置の処理を説明するフローチャートである。
【図16】復号装置102の第3の構成例を示すブロック図である。
【図17】タップ構造の例を説明する図である。
【図18】復号装置102の処理を説明するフローチャートである。
【図19】学習装置の第2の構成例を示すブロック図である。
【図20】学習装置の処理を説明するフローチャートである。
【図21】復号装置102の第4の構成例を示すブロック図である。
【図22】復号装置102の処理を説明するフローチャートである。
【図23】学習装置の第4の構成例を示すブロック図である。
【図24】学習装置の処理を説明するフローチャートである。
【図25】復号装置102の第5の構成例を示すブロック図である。
【図26】オーディオデータのパワースペクトルと静寂時の最小可聴限界を示す図である。
【図27】オーディオデータのパワースペクトルと静寂時の最小可聴限界を示す図である。
【図28】レベル補正部162の処理を説明するフローチャートである。
【図29】ログスケールでのサブバンド分割を示す図である。
【図30】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
101 符号化装置, 102 復号装置, 103 伝送媒体, 104 記録媒体, 111 デコーダ, 112 コントローラ, 113 クラス分類適応処理部, 114 サブバンド合成部, 121,122 タップ生成部, 123 クラス分類部, 124 タップ係数記憶部, 125 予測演算部, 131 教師データ生成部, 132 生徒データ生成部, 133 コントローラ, 134 学習部, 141 学習用データベース, 142 エンコーダ, 143 デコーダ, 151,152 タップ生成部, 153 クラス分類部, 154 足し込み部, 155 タップ係数演算部, 156タップ係数記憶部, 161 復号ブロック, 162 レベル補正部, 171 ラッチ部, 172 FFT部, 173 レベル調整部, 174 逆FFT部, 175 選択部, 176 判定部, 201 バス, 202 CPU, 203 ROM, 204 RAM, 205 ハードディスク, 206 出力部, 207 入力部, 208 通信部, 209 ドライブ, 210入出力インタフェース, 211 リムーバブル記録媒体

Claims (13)

  1. 時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第1のデータを、前記第1のデータよりも高品質のデータである第2のデータに変換するデータ処理装置であって、
    前記第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、前記注目データに近接する複数のデータからなるクラスタップを、前記第1のデータから抽出するクラスタップ抽出手段と、
    前記クラスタップを構成する複数のデータの値から、前記クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、前記注目データをクラス分類するクラス分類手段と、
    前記注目データを求める積和演算に用いる、前記注目データに近接する複数のデータからなる予測タップを、前記第1のデータから抽出する予測タップ抽出手段と、
    学習の教師となる、前記第2のデータに対応する教師データと、前記学習の生徒となる、前記第1のデータに対応する生徒データを用い、注目している前記教師データの予測値を、その教師データに近接する複数の前記生徒データとタップ係数との積和演算により求め、注目している前記教師データと、求められた前記予測値との差分値である予測誤差を最小にする学習を、前記1以上のクラスごとに行うことにより求められたタップ係数から、前記注目データのクラスのタップ係数を取得する取得手段と、
    前記注目データのクラスのタップ係数と、前記予測タップとを用いた積和演算を行うことにより前記注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータである前記第1のデータを、前記第1のデータにおいてビット割り当てが0とされた前記第1のデータにおいて抜けている周波数帯域のオーディオデータである前記第2のデータに変換する予測演算手段と
    を備えることを特徴とするデータ処理装置
  2. 前記予測演算手段は、前記第1のデータを、複数の周波数帯域それぞれごとのオーディオデータである前記第2のデータに変換する
    ことを特徴とする請求項1に記載のデータ処理装置。
  3. 前記第2のデータである前記複数の周波数帯域それぞれごとのオーディオデータを合成して、時間領域のオーディオデータを求める合成手段をさらに備える
    ことを特徴とする請求項2に記載のデータ処理装置。
  4. 前記第2のデータは、時間領域または周波数領域のオーディオデータであり、
    前記第2のデータが周波数領域のオーディオデータである場合には、その周波数領域のオーディオデータを、時間領域のオーディオデータに変換する変換手段をさらに備える
    ことを特徴とする請求項1に記載のデータ処理装置。
  5. 前記第2のデータである時間領域のオーディオデータ、または前記第2のデータである周波数領域のオーディオデータを変換して得られる時間領域のオーディオデータを補正する補正手段をさらに備える
    ことを特徴とする請求項4に記載のデータ処理装置。
  6. 時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第1のデータを、前記第1のデータよりも高品質のデータである第2のデータに変換するデータ処理方法であって、
    前記第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、前記注目データに近接する複数のデータからなるクラスタップを、前記第1のデータから抽出するクラスタップ抽出ステップと、
    前記クラスタップを構成する複数のデータの値から、前記クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、前記注目データをクラス分類するクラス分類ステップと、
    前記注目データを求める積和演算に用いる、前記注目データに近接する複数のデータからなる予測タップを、前記第1のデータから抽出する予測タップ抽出ステップと、
    学習の教師となる、前記第2のデータに対応する教師データと、前記学習の生徒となる、前記第1のデータに対応する生徒データを用い、注目している前記教師データの予測値を、その教師データに近接する複数の前記生徒データとタップ係数との積和演算により求め、注目している前記教師データと、求められた前記予測値との差分値である予測誤差を最小にする学習を、前記1以上のクラスごとに行うことにより求められたタップ係数から、前記注目データのクラスのタップ係数を取得する取得ステップと、
    前記注目データのクラスのタップ係数と、前記予測タップとを用いた積和演算を行うことにより前記注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータである前記第1のデータを、前記第1のデータにおいてビット割り当てが0とされた前記第1のデータにおいて抜けている周波数帯域のオーディオデータである前記第2のデータに変換する予測演算ステップと
    を備えることを特徴とするデータ処理方法。
  7. 時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第1のデータを、前記第1のデータよりも高品質のデータである第2のデータに変換するデータ処理を、コンピュータに行わせるプログラムであって、
    前記第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、前記注目データに近接する複数のデータからなるクラスタップを、前記第1のデータから抽出するクラスタップ抽出ステップと、
    前記クラスタップを構成する複数のデータの値から、前記クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、前記注目データをクラス分類するクラス分類ステップと、
    前記注目データを求める積和演算に用いる、前記注目データに近接する複数のデータからなる予測タップを、前記第1のデータから抽出する予測タップ抽出ステップと、
    学習の教師となる、前記第2のデータに対応する教師データと、前記学習の生徒となる、前記第1のデータに対応する生徒データを用い、注目している前記教師データの予測値を、その教師データに近接する複数の前記生徒データとタップ係数との積和演算により求め、注目している前記教師データと、求められた前記予測値との差分値である予測誤差を最小にする学習を、前記1以上のクラスごとに行うことにより求められたタップ係数から、前記注目データのクラスのタップ係数を取得する取得ステップと、
    前記注目データのクラスのタップ係数と、前記予測タップとを用いた積和演算を行うことにより前記注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータである前記第1のデータを、前記第1のデータにおいてビット割り当てが0とされた前記第1のデータにおいて抜けている周波数帯域のオーディオデータである前記第2のデータに変換する予測演算ステップと
    コンピュータに実行させるためのプログラム。
  8. 時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第1のデータを、前記第1のデータよりも高品質のデータである第2のデータに変換するデータ処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
    前記第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、前記注目データに近接する複数のデータからなるクラスタップを、前記第1のデータから抽出するクラスタップ抽出ステップと、
    前記クラスタップを構成する複数のデータの値から、前記クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、前記注目データをクラス分類するクラス分類ステップと、
    前記注目データを求める積和演算に用いる、前記注目データに近接する複数のデータからなる予測タップを、前記第1のデータから抽出する予測タップ抽出ステップと、
    学習の教師となる、前記第2のデータに対応する教師データと、前記学習の生徒となる、前記第1のデータに対応する生徒データを用い、注目している前記教師データの予測値を、その教師データに近接する複数の前記生徒データとタップ係数との積和演算により求め、注目している前記教師データと、求められた前記予測値との差分値である予測誤差を最小にする学習を、前記1以上のクラスごとに行うことにより求められたタップ係数から、前記注目データのクラスのタップ係数を取得する取得ステップと、
    前記注目データのクラスのタップ係数と、前記予測タップとを用いた積和演算を行うことにより前記注目データを求めることで、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータである前記第1のデータを、前記第1のデータにおいてビット割り当てが0とされた前記第1のデータにおいて抜けている周波数帯域のオーディオデータである前記第2のデータに変換する予測演算ステップと
    コンピュータに実行させるためのプログラムが記録されている
    ことを特徴とする記録媒体。
  9. 時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第1のデータを、前記第1のデータよりも高品質のデータである第2のデータに変換するのに用いられるタップ係数を学習するデータ処理装置であって、
    前記第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、前記注目データに近接する複数のデータからなるクラスタップを、前記第1のデータから抽出するクラスタップ抽出手段と、
    前記クラスタップを構成する複数のデータの値から、前記クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、前記注目データをクラス分類するクラス分類手段と、
    前記タップ係数の学習の教師となる、前記第2のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、前記注目データに近接する複数のデータからなる予測タップを、前記学習の生徒となる、前記第1のデータに対応する生徒データから抽出する予測タップ抽出手段と、
    前記注目データと予測タップを用い、前記注目データの予測値を、その注目データに近接する複数の前記生徒データとタップ係数との積和演算により求め、前記注目データと、求められた前記予測値との差分値である予測誤差を最小にする学習を、前記1以上のクラスごとに行うことにより、前記タップ係数を求める学習手段と
    を備え、
    前記第1のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、
    前記学習手段は、前記第1のデータを、前記第1のデータにおいてビット割り当てが0とされた前記第1のデータにおいて抜けている周波数帯域のオーディオデータである前記第2のデータに変換するのに用いられる前記タップ係数を求める
    ことを特徴とするデータ処理装置。
  10. 前記学習手段は、前記第1のデータを、複数の周波数帯域それぞれごとのオーディオデータである前記第2のデータに変換するのに用いられる前記タップ係数を求める
    ことを特徴とする請求項9に記載のデータ処理装置。
  11. 時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第1のデータを、前記第1のデータよりも高品質のデータである第2のデータに変換するのに用いられるタップ係数を学習するデータ処理方法であって、
    前記第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、前記注目データに近接する複数のデータからなるクラスタップを、前記第1のデータから抽出するクラスタップ抽出ステップと、
    前記クラスタップを構成する複数のデータの値から、前記クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、前記注目データをクラス分類するクラス分類ステップと、
    前記タップ係数の学習の教師となる、前記第2のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、前記注目データに近接する複数のデータからなる予測タップを、前記学習の生徒となる、前記第1のデータに対応する生徒データから抽出する予測タップ抽出ステップと、
    前記注目データと予測タップを用い、前記注目データの予測値を、その注目データに近接する複数の前記生徒データとタップ係数との積和演算により求め、前記注目データと、求められた前記予測値との差分値である予測誤差を最小にする学習を、前記1以上のクラスごとに行うことにより、前記タップ係数を求める学習ステップと
    を備え、
    前記第1のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、
    前記学習ステップにおいて、前記第1のデータにおいてビット割り当てが0とされた前記第1のデータにおいて抜けている周波数帯域のオーディオデータである前記第2のデータに変換するのに用いられる前記タップ係数が求められる
    ことを特徴とするデータ処理方法。
  12. 時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第1のデータを、前記第1のデータよりも高品質のデータである第2のデータに変換するのに用いられるタップ係数を学習するデータ処理を、コンピュータに行わせるプログラムであって、
    前記第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、前記注目データに近接する複数のデータからなるクラスタップを、前記第1のデータから抽出するクラスタップ抽出ステップと、
    前記クラスタップを構成する複数のデータの値から、前記クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、前記注目データをクラス分類するクラス分類ステップと、
    前記タップ係数の学習の教師となる、前記第2のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、前記注目データに近接する複数のデータからなる予測タップを、前記学習の生徒となる、前記第1のデータに対応する生徒データから抽出する予測タップ抽出ステップと、
    前記注目データと予測タップを用い、前記注目データの予測値を、その注目データに近接する複数の前記生徒データとタップ係数との積和演算により求め、前記注目データと、求められた前記予測値との差分値である予測誤差を最小にする学習を、前記1以上のクラスごとに行うことにより、前記タップ係数を求める学習ステップと
    コンピュータに実行させ、
    前記第1のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、
    前記学習ステップにおいて、前記第1のデータを、前記第1のデータにおいてビット割り当てが0とされた前記第1のデータにおいて抜けている周波数帯域のオーディオデータである前記第2のデータに変換するのに用いられる前記タップ係数が求められる
    ことを特徴とするプログラム。
  13. 時間領域のオーディオデータを周波数領域のオーディオデータに変換することにより得られる第1のデータを、前記第1のデータよりも高品質のデータである第2のデータに変換するのに用いられるタップ係数を学習するデータ処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
    前記第2のデータのうちの、注目しているデータである注目データをクラス分けするクラス分類に用いる、前記注目データに近接する複数のデータからなるクラスタップを、前記第1のデータから抽出するクラスタップ抽出ステップと、
    前記クラスタップを構成する複数のデータの値から、前記クラスに対応するクラスコードを算出することにより、そのクラスコードに対応するクラスに、前記注目データをクラス分類するクラス分類ステップと、
    前記タップ係数の学習の教師となる、前記第2のデータに対応する教師データのうちの注目している注目データを求めるのに用いる、前記注目データに近接する複数のデータからなる予測タップを、前記学習の生徒となる、前記第1のデータに対応する生徒データから抽出する予測タップ抽出ステップと、
    前記注目データと予測タップを用い、前記注目データの予測値を、その注目データに近接する複数の前記生徒データとタップ係数との積和演算により求め、前記注目データと、求められた前記予測値との差分値である予測誤差を最小にする学習を、前記1以上のクラスごとに行うことにより、前記タップ係数を求める学習ステップと
    コンピュータに実行させ、
    前記第1のデータは、知覚符号化技術または聴覚心理符号化技術により一部の周波数帯域に対するビット割り当てが0とされることがある、複数の周波数帯域それぞれごとのオーディオデータであり、
    前記学習ステップにおいて、前記第1のデータを、前記第1のデータにおいてビット割り当てが0とされた前記第1のデータにおいて抜けている周波数帯域のオーディオデータである前記第2のデータに変換するのに用いられる前記タップ係数が求められる
    プログラムが記録されている
    ことを特徴とする記録媒体。
JP2002210899A 2002-07-19 2002-07-19 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体 Expired - Fee Related JP4218271B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002210899A JP4218271B2 (ja) 2002-07-19 2002-07-19 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002210899A JP4218271B2 (ja) 2002-07-19 2002-07-19 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体

Publications (3)

Publication Number Publication Date
JP2004053891A JP2004053891A (ja) 2004-02-19
JP2004053891A5 JP2004053891A5 (ja) 2005-10-20
JP4218271B2 true JP4218271B2 (ja) 2009-02-04

Family

ID=31934276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002210899A Expired - Fee Related JP4218271B2 (ja) 2002-07-19 2002-07-19 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4218271B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4627737B2 (ja) * 2006-03-08 2011-02-09 シャープ株式会社 デジタルデータ復号化装置
JP4649351B2 (ja) * 2006-03-09 2011-03-09 シャープ株式会社 デジタルデータ復号化装置
BRPI0910811B1 (pt) * 2008-07-11 2021-09-21 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador de áudio, decodificador de áudio, métodos para codificar e decodificar um sinal de áudio.
HUE032831T2 (en) 2013-01-08 2017-11-28 Dolby Int Ab Model-based prediction in a critically sampled filter block

Also Published As

Publication number Publication date
JP2004053891A (ja) 2004-02-19

Similar Documents

Publication Publication Date Title
CA2637185C (en) Complex-transform channel coding with extended-band frequency coding
JP3579047B2 (ja) オーディオ復号装置と復号方法およびプログラム
US9659573B2 (en) Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US8190425B2 (en) Complex cross-correlation parameters for multi-channel audio
US7953604B2 (en) Shape and scale parameters for extended-band frequency coding
KR100986153B1 (ko) 합성된 스펙트럼 성분을 적용하기 위하여 디코딩된 신호의 특성을 사용하는 오디오 코딩 시스템
RU2689438C2 (ru) Устройство кодирования и способ кодирования, устройство декодирования и способ декодирования и программа
JP4810422B2 (ja) 符号化装置、復号化装置、およびこれらの方法
KR102055022B1 (ko) 부호화 장치 및 방법, 복호 장치 및 방법, 및 프로그램
KR101679083B1 (ko) 2개의 블록 변환으로의 중첩 변환의 분해
TWI657434B (zh) 解碼壓縮高階保真立體音響表示之方法及裝置,及編碼壓縮高階保真立體音響表示之方法及裝置
KR20100063127A (ko) 오디오 코딩 시스템내에서 향상 계층을 발생시키는 방법 및 장치
US8838442B2 (en) Method and system for two-step spreading for tonal artifact avoidance in audio coding
TW201606751A (zh) 將高階保真立體音響信號表示之次頻帶內主導方向信號之方向編碼/解碼之方法及裝置
US20020169601A1 (en) Encoding device, decoding device, and broadcast system
JP3344944B2 (ja) オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法
JP4218271B2 (ja) データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP4191503B2 (ja) 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
JP4454603B2 (ja) 信号処理方法、信号処理装置及びプログラム
Al-Nuaimi et al. Enhancing MP3 encoding by utilizing a predictive complex-valued neural network
JP5189760B2 (ja) 信号処理方法、信号処理装置及びプログラム
JP2019502948A (ja) 符号化されたオーディオ信号を処理するための装置および方法
WO2023198925A1 (en) High frequency reconstruction using neural network system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050630

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050630

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081021

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081103

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131121

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees