JP4538705B2

JP4538705B2 - ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Info

Publication number: JP4538705B2
Application number: JP2000238897A
Authority: JP
Inventors: 哲二郎近藤; 正明服部; 勉渡辺; 裕人木村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-08-02
Filing date: 2000-08-02
Publication date: 2010-09-08
Anticipated expiration: 2020-08-02
Also published as: US6907413B2; US20020184175A1; US6990475B2; US20050154480A1; US20050177257A1; JP2002049398A; WO2002013181A1

Description

【０００１】
【発明の属する技術分野】
本発明はディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に関し、レートコンバータ又はＰＣＭ(Pulse Code Modulation) 復号装置等においてディジタル信号に対してデータの補間処理を行うディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に適用して好適なものである。
【０００２】
【従来の技術】
従来、ディジタルオーディオ信号をディジタル／アナログコンバータに入力する前に、サンプリング周波数を元の値の数倍に変換するオーバサンプリング処理を行っている。これにより、ディジタル／アナログコンバータから出力されたディジタルオーディオ信号はアナログ・アンチ・エイリアス・フィルタの位相特性が可聴周波数高域で一定に保たれ、また、サンプリングに伴うディジタル系のイメージ雑音の影響が排除されるようになされている。
【０００３】
かかるオーバサンプリング処理では、通常、線形一次（直線）補間方式のディジタルフィルタが用いられている。このようなディジタルフィルタは、サンプリングレートが変わったりデータが欠落した場合等に、複数の既存データの平均値を求めて直線的な補間データを生成するものである。
【０００４】
【発明が解決しようとする課題】
ところが、オーバサンプリング処理後のディジタルオーディオ信号は、線形一次補間によって時間軸方向に対してデータ量が数倍に緻密になっているものの、オーバサンプリング処理後のディジタルオーディオ信号の周波数帯域は変換前とあまり変わらず、音質そのものは向上していない。さらに、補間されたデータは必ずしもＡ／Ｄ変換前のアナログオーディオ信号の波形に基づいて生成されたのではないため、波形再現性もほとんど向上していない。
【０００５】
また、サンプリング周波数の異なるディジタルオーディオ信号をダビングする場合において、サンプリング・レート・コンバータを用いて周波数を変換しているが、かかる場合でも線形一次ディジタルフィルタによって直線的なデータの補間しか行うことができず、音質や波形再現性を向上することが困難であった。さらに、ディジタルオーディオ信号のデータサンプルが欠落した場合において同様である。
【０００６】
本発明は以上の点を考慮してなされたもので、ディジタルオーディオ信号の波形再現性を一段と向上し得るディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体を提案しようとするものである。
【０００７】
【課題を解決するための手段】
かかる課題を解決するため本発明においては、ディジタルオーディオ信号からパワースペクトルデータを算出し、算出されたパワースペクトルデータから一部のパワースペクトルデータを抽出し、抽出された一部のパワースペクトルデータに基づいてそのクラスを分類し、分類されたクラスに対応した予測方式でディジタルオーディオ信号を変換するようにしたことにより、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【０００８】
【発明の実施の形態】
以下図面について、本発明の一実施の形態を詳述する。
【０００９】
図１においてオーディオ信号処理装置１０は、ディジタルオーディオ信号（以下これをオーディオデータと呼ぶ）のサンプリングレートを上げたり、オーディオデータを補間する際に、真値に近いオーディオデータをクラス分類適用処理によって生成するようになされている。
【００１０】
因みに、この実施の形態におけるオーディオデータとは、人間の声や楽器の音等を表す楽音データ、さらにはその他種々の音を表すデータである。
【００１１】
すなわち、オーディオ信号処理装置１０において、スペクトル処理部１１は入力端子Ｔ_INから供給された入力オーディオデータＤ１０を所定時間毎の領域（この実施の形態の場合、例えば６サンプル毎とする）に切り出した時間軸波形データであるクラスタップを構築した後、当該構築したクラスタップについて、後述する対数データ算出方法により、入力手段１８から供給される制御データＤ１８に応じて対数データを算出する。
【００１２】
スペクトル処理部１１は入力オーディオデータＤ１０のこのとき構築されたクラスタップについて、対数データ算出方法による算出結果であってクラス分類しようとする対数データＤ１１を算出し、これをクラス分類部１４に供給する。
【００１３】
クラス分類部１３は、スペクトル処理部１１から供給された対数データＤ１１について、当該対数データＤ１１を圧縮して圧縮データパターンを生成するＡＤＲＣ(Adaptive Dynamic Range Coding) 回路部と、対数データＤ１１の属するクラスコードを発生するクラスコード発生回路部とを有する。
【００１４】
ＡＤＲＣ回路部は対数データＤ１１に対して、例えば８ビットから２ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このＡＤＲＣ回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【００１５】
具体的には、６つの８ビットのデータ（対数データ）をクラス分類しようとする場合、２⁴⁸という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部１４ではその内部に設けられたＡＤＲＣ回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば６つの対数データに対して１ビットの量子化を実行すると、６つの対数データを６ビットで表すことができ、２⁶＝６４クラスに分類することができる。
【００１６】
ここで、ＡＤＲＣ回路部は、切り出された領域内のダイナミックレンジをＤＲ、ビット割り当てをｍ、各対数データのデータレベルをＬ、量子化コードをＱとすると、次式、
【００１７】
【数１】

【００１８】
に従って、領域内の最大値ＭＡＸと最小値ＭＩＮとの間を指定されたビット長で均等に分割して量子化を行う。なお、（１）式において｛｝は小数点以下の切り捨て処理を意味する。かくしてスペクトル処理部１１において算出された６つの対数データが、それぞれ例えば８ビット（ｍ＝８）で構成されているとすると、これらはＡＤＲＣ回路部においてそれぞれが２ビットに圧縮される。
【００１９】
このようにして圧縮された対数データをそれぞれｑ_n（ｎ＝１〜６）とすると、クラス分類部１４に設けられたクラスコード発生回路部は、圧縮された対数データｑ_nに基づいて、次式、
【００２０】
【数２】

【００２１】
に示す演算を実行することにより、そのブロック（ｑ₁〜ｑ₆）が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass を表すクラスコードデータＤ１４を予測係数メモリ１５に供給する。このクラスコードclass は、予測係数メモリ１５から予測係数を読み出す際の読み出しアドレスを示す。因みに（２）式において、ｎは圧縮された対数データｑ_nの数を表し、この実施の形態の場合ｎ＝６であり、またＰはビット割り当てを表し、この実施の形態の場合Ｐ＝２である。
【００２２】
このようにして、クラス分類部１４は入力オーディオデータＤ１０から算出された対数データＤ１１のクラスコードデータＤ１４を生成し、これを予測係数メモリ１５に供給する。
【００２３】
予測係数メモリ１５には、各クラスコードに対応する予測係数のセットがクラスコードに対応するアドレスにそれぞれ記憶されており、クラス分類部１４から供給されるクラスコードデータＤ１４に基づいて、当該クラスコードに対応するアドレスに記憶されている予測係数のセットＷ₁〜Ｗ_nが読み出され、予測演算部１６に供給される。
【００２４】
予測演算部１６は、予測演算部抽出部１３において入力オーディオデータＤ１０から時間軸領域で切り出された予測演算しようとするオーディオ波形データ（予測タップ）Ｄ１３（Ｘ₁〜Ｘ_n）と、予測係数Ｗ₁〜Ｗ_nに対して、次式
【００２５】
【数３】

【００２６】
に示す積和演算を行うことにより、予測結果ｙ′を得る。この予測値ｙ′が、音質が改善されたオーディオデータＤ１６として予測演算部１６から出力される。
【００２７】
なお、オーディオ信号処理装置１０の構成として図１について上述した機能ブロックを示したが、この機能ブロックを構成する具体的構成として、この実施の形態においては図２に示すコンピュータ構成の装置を用いる。すなわち、図２において、オーディオ信号処理装置１０は、バスＢＵＳを介してＣＰＵ２１、ＲＯＭ(Read Only Memory)２２、予測係数メモリ１５を構成するＲＡＭ(Random Access Memory)１５、及び各回路部がそれぞれ接続された構成を有し、ＣＰＵ１１はＲＯＭ２２に格納されている種々のプログラムを実行することにより、図１について上述した各機能ブロック（スペクトル処理部１１、予測演算部抽出部１３、クラス分類部１４及び予測演算部１６）として動作するようになされている。
【００２８】
また、オーディオ信号処理装置１０にはネットワークとの間で通信を行う通信インターフェース２４、フロッピィディスクや光磁気ディスク等の外部記憶媒体から情報を読み出すリムーバブルドライブ２８を有し、ネットワーク経由又は外部記憶媒体から図１について上述したクラス分類適用処理を行うための各プログラムをハードディスク装置２５のハードディスクに読み込み、当該読み込まれたプログラムに従ってクラス分類適応処理を行うこともできる。
【００２９】
ユーザは、キーボードやマウス等の入力手段１８を介して種々のコマンドを入力することにより、ＣＰＵ２１に対して図１について上述したクラス分類処理を実行させる。この場合、オーディオ信号処理装置１０はデータ入出力部２７を介して音質を向上させようとするオーディオデータ（入力オーディオデータ）Ｄ１０を入力し、当該入力オーディオデータＤ１０に対してクラス分類適用処理を施した後、音質が向上したオーディオデータＤ１６をデータ入出力部２７を介して外部に出力し得るようになされている。
【００３０】
因みに、図３はオーディオ信号処理装置１０におけるクラス分類適応処理の処理手順を示し、オーディオ信号処理装置１０はステップＳＰ１０１から当該処理手順に入ると、続くステップＳＰ１０２において入力オーディオデータＤ１０の対数データＤ１１をスペクトル処理部１１において算出する。
【００３１】
この算出された対数データＤ１１は入力オーディオデータＤ１０の特徴を表すものであり、オーディオ信号処理装置１０は、ステップＳＰ１０３に移ってクラス分類部１４により対数データＤ１１に基づいてクラスを分類する。そしてオーディオ信号処理装置１０はクラス分類の結果得られたクラスコードを用いて予測係数メモリ１５から予測係数を読み出す。この予測係数は予め学習によりクラス毎に対応して格納されており、オーディオ信号処理装置１０はクラスコードに対応した予測係数を読み出すことにより、このときの対数データＤ１１の特徴に合致した予測係数を用いることができる。
【００３２】
予測係数メモリ１５から読み出された予測係数は、ステップＳＰ１０４において予測演算部１６の予測演算に用いられる。これにより、入力オーディオデータＤ１０はその対数データＤ１１の特徴に適応した予測演算により、所望とするオーディオデータＤ１６に変換される。かくして入力オーディオデータＤ１０はその音質が改善されたオーディオデータＤ１６に変換され、オーディオ信号処理装置１０はステップＳＰ１０５に移って当該処理手順を終了する。
【００３３】
次に、オーディオ信号処理装置１０のスペクトル処理部１１における入力オーディオデータＤ１０の対数データＤ１１の算出方法について説明する。
【００３４】
すなわち、図４はスペクトル処理部１１における対数データ算出方法の対数データ算出処理手順を示し、スペクトル処理部１１はステップＳＰ１から当該処理手順に入ると、続くステップＳＰ２において入力オーディオデータＤ１０を所定時間毎の領域に切り出した時間軸波形データであるクラスタップを構築し、ステップＳＰ３に移る。
【００３５】
ステップＳＰ３において、スペクトル処理部１１はクラスタップに対して、窓関数を「Ｗ（Ｋ）」とすると、次式、
【００３６】
【数４】

【００３７】
に示すハミング窓に従って、乗算データを算出し、ステップＳＰ４に移る。因みに、この窓関数の乗算処理においては、続くステップＳＰ４において行われる周波数分析の精度を向上させるために、このとき構築されたそれぞれのクラスタップの最初の値と最後の値を等しくするようになされている。また、（１）式において、「Ｎ」はハミング窓のサンプル数を表しており、「ｋ」は何番目のサンプルデータであるかを表している。
【００３８】
ステップＳＰ４において、スペクトル処理部１１は乗算データに対して、高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）を行うことにより、図５に示すようなパワースペクトルデータを算出し、ステップＳＰ５に移る。
【００３９】
ステップＳＰ５において、スペクトル処理部１１はパワースペクトルデータから有意であるパワースペクトルデータのみを抽出するようになされている。
【００４０】
この抽出処理において、Ｎ個の乗算データから算出したパワースペクトルデータのうち、Ｎ／２から右側のパワースペクトルデータ群ＡＲ２（図５）は、ゼロ値からＮ／２までの左側のパワースペクトルデータ群ＡＲ１（図５）とほぼ同じ成分になる（すなわち、左右対称となる）。このことは、Ｎ個の乗算データの周波数帯域内で、両端から等距離にある２個の周波数点におけるパワースペクトルデータの成分が互いに共役であることを示している。従って、スペクトル処理部１１は、ゼロ値からＮ／２までの左側のパワースペクトルデータ群ＡＲ１（図５）のみを抽出対象とする。
【００４１】
そしてスペクトル処理部１１は、このとき抽出対象としたパワースペクトルデータ群ＡＲ１のうち、予めユーザが入力手段１８（図１及び図２）を介して選択設定した以外のｍ個のパワースペクトルデータを除いて抽出する。
【００４２】
具体的には、ユーザが入力手段１８を介して例えば人間の声を一段と高音質にするように選択設定を行った場合、当該選択操作に応じた制御データＤ１８が入力手段１８からスペクトル処理部１１に出力され（図１及び図２）、これによりスペクトル処理部１１は、このとき抽出したパワースペクトルデータ群ＡＲ１（図５）から、人間の声において有意となる５００Ｈｚから４ｋＨｚ付近のパワースペクトルデータのみを抽出する（すなわち５００Ｈｚから４ｋＨｚ付近以外のパワースペクトルデータが、除くべきｍ個のパワースペクトルデータである）。
【００４３】
また、ユーザが入力手段１８（図１及び図２）を介して例えば音楽を一段と高音質にするように選択を行った場合には、当該選択操作に応じた制御データＤ１８が入力手段１８からスペクトル処理部１１に出力され、これによりスペクトル処理部１１は、このとき抽出したパワースペクトルデータ群ＡＲ１（図５）から、音楽において有意となる２０Ｈｚから２０ｋＨｚ付近のパワースペクトルデータのみを抽出する（すなわち２０Ｈｚから２０ｋＨｚ付近以外のパワースペクトルデータが、除くべきｍ個のパワースペクトルデータである）。
【００４４】
このように入力手段１８（図１及び図２）から出力される制御データＤ１８は、有意なパワースペクトルデータとして抽出する周波数成分を決定づけるようになされており、入力手段１８（図１及び図２）を介して手動で選択操作するユーザの意図を反映している。
【００４５】
従って、制御データＤ１８に応じてパワースペクトルデータを抽出するスペクトル処理部１１は、ユーザが高音質での出力を希望する特定のオーディオ成分の周波数成分を有意なパワースペクトルデータとして抽出することとなる。
【００４６】
因みに、スペクトル処理部１１は、抽出対象としたパワースペクトルデータ群ＡＲ１のうち、もとの波形の音程を表すため、有意な特徴をもたない直流成分のパワースペクトルデータをも除いて抽出するようになされている。
【００４７】
このように、ステップＳＰ５において、スペクトル処理部１１は制御データＤ１８に応じて、パワースペクトルデータ群ＡＲ１（図５）からｍ個のパワースペクトルデータを除くと共に、直流成分のパワースペクトルデータも除いてなる必要最小限のパワースペクトルデータ、すなわち有意なパワースペクトルデータのみを抽出し、続くステップＳＰ６に移る。
【００４８】
ステップＳＰ６において、スペクトル処理部１１は抽出されたパワースペクトルデータに対して、次式、
【００４９】
【数５】

【００５０】
に従って、このとき抽出されたパワースペクトルデータ（ｐｓ[k] ）の最大値（ｐｓ＿ｍａｘ）を算出し、次式、
【００５１】
【数６】

【００５２】
に従って、このとき抽出されたパワースペクトルデータ（ｐｓ[k] ）の最大値（ｐｓ＿ｍａｘ）での正規化（除算）し、このとき得られた基準値（ｐｓｎ[k] ）に対して、次式、
【００５３】
【数７】

【００５４】
に従って、対数（デシベル値）変換を行うようになされている。因みに（７）式において、ｌｏｇは常用対数である。
【００５５】
このように、ステップＳＰ６において、スペクトル処理部１１は最大振幅で正規化及び振幅の対数変換を行うことにより、特徴部分（有意である小さな波形部分）をも見い出すと共に、結果として、音声を聞く対象である人間が心地よく聞き得るようにする対数データＤ１１を算出し、続くステップＳＰ７に移って対数データ算出処理手順を終了する。
【００５６】
このようにして、スペクトル処理部１１は対数データ算出方法の対数データ算出処理手順によって、入力オーディオデータＤ１０で表される信号波形の特徴を一段と見い出した対数データＤ１１を算出することができる。
次に、図１について上述した予測係数メモリ１５に記憶するクラス毎の予測係数のセットを予め学習によって得るための学習回路について説明する。
【００５７】
図６において、学習回路３０は、高音質の教師オーディオデータＤ３０を生徒信号生成フィルタ３７に受ける。生徒信号生成フィルタ３７は、間引き率設定信号Ｄ３９により設定された間引き率で教師オーディオデータＤ３０を所定時間ごとに所定サンプル間引くようになされている。
【００５８】
この場合、生徒信号生成フィルタ３７における間引き率によって、生成される予測係数が異なり、これに応じて上述のオーディオ信号処理装置１０で再現されるオーディオデータも異なる。例えば、上述のオーディオ信号処理装置１０においてサンプリング周波数を高くすることでオーディオデータの音質を向上しようとする場合、生徒信号生成フィルタ３７ではサンプリング周波数を減らす間引き処理を行う。また、これに対して上述のオーディオ信号処理装置１０において入力オーディオデータＤ１０の欠落したデータサンプルを補うことで音質の向上を図る場合には、これに応じて、生徒信号生成フィルタ３７ではデータサンプルを欠落させる間引き処理を行うようになされている。
【００５９】
かくして、生徒信号生成フィルタ３７は教師オーディオデータ３０から所定の間引き処理により生徒オーディオデータＤ３７を生成し、これをスペクトル処理部３１及び予測演算部抽出部３３にそれぞれ供給する。
【００６０】
スペクトル処理部３１は生徒信号生成フィルタ３７から供給された生徒オーディオデータＤ３７を所定時間毎の領域（この実施の形態の場合、例えば６サンプル毎とする）に分割した後、当該分割された各時間領域の波形について、図４について上述した対数データ算出方法による算出結果であってクラス分類しようとする対数データＤ３１を算出し、これをクラス分類部３４に供給する。
クラス分類部３４は、スペクトル処理部３１から供給された対数データＤ３１について、当該対数データＤ３１を圧縮して圧縮データパターンを生成するＡＤＲＣ回路部と、対数データＤ３１の属するクラスコードを発生するクラスコード発生回路部とを有する。
【００６１】
ＡＤＲＣ回路部は対数データＤ３１に対して、例えば８ビットから２ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このＡＤＲＣ回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【００６２】
具体的には、６つの８ビットのデータ（対数データ）をクラス分類しようとする場合、２⁴⁸という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部３４ではその内部に設けられたＡＤＲＣ回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば６つの対数データに対して１ビットの量子化を実行すると、６つの対数データを６ビットで表すことができ、２⁶＝６４クラスに分類することができる。
【００６３】
ここで、ＡＤＲＣ回路部は、切り出された領域内のダイナミックレンジをＤＲ、ビット割り当てをｍ、各対数データのデータレベルをＬ、量子化コードをＱとして、上述の（１）式と同様の演算により、領域内の最大値ＭＡＸと最小値ＭＩＮとの間を指定されたビット長で均等に分割して量子化を行う。かくしてスペクトル処理部３１において算出された６つの対数データが、それぞれ例えば８ビット（ｍ＝８）で構成されているとすると、これらはＡＤＲＣ回路部においてそれぞれが２ビットに圧縮される。
【００６４】
このようにして圧縮された対数データをそれぞれｑ_n（ｎ＝１〜６）とすると、クラス分類部３４に設けられたクラスコード発生回路部は、圧縮された対数データｑ_nに基づいて、上述の（２）式と同様の演算を実行することにより、そのブロック（ｑ₁〜ｑ₆）が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass を表すクラスコードデータＤ３４を予測係数算出部３６に供給する。因みに（２）式において、ｎは圧縮された対数データｑ_nの数を表し、この実施の形態の場合ｎ＝６であり、またＰはビット割り当てを表し、この実施の形態の場合Ｐ＝２である。
【００６５】
このようにして、クラス分類部３４はスペクトル処理部３１から供給された対数データＤ３１のクラスコードデータＤ３４を生成し、これを予測係数算出部３６に供給する。また、予測係数算出部３６には、クラスコードデータＤ３４に対応した時間軸領域のオーディオ波形データＤ３３（ｘ₁、ｘ₂、……、ｘ_n）が予測演算部抽出部３３において切り出されて供給される。
【００６６】
予測係数算出部３６は、クラス分類部３４から供給されたクラスコードclass と、各クラスコードclass 毎に切り出されたオーディオ波形データＤ３３と、入力端Ｔ_INから供給された高音質の教師オーディオデータＤ３０とを用いて、正規方程式を立てる。
【００６７】
すなわち、生徒オーディオデータＤ３７のｎサンプルのレベルをそれぞれｘ₁、ｘ₂、……、ｘ_nとして、それぞれにｐビットのＡＤＲＣを行った結果の量子化データをｑ₁、……、ｑ_nとする。このとき、この領域のクラスコードclass を上述の（２）式のように定義する。そして、上述のように生徒オーディオデータＤ３７のレベルをそれぞれ、ｘ₁、ｘ₂、……、ｘ_nとし、高音質の教師オーディオデータＤ３０のレベルをｙとしたとき、クラスコード毎に、予測係数ｗ₁、ｗ₂、……、ｗ_nによるｎタップの線形推定式を設定する。これを次式、
【００６８】
【数８】

【００６９】
とする。学習前は、Ｗ_nが未定係数である。
【００７０】
学習回路３０では、クラスコード毎に、複数のオーディオデータに対して学習を行う。データサンプル数がＭの場合、上述の（８）式に従って、次式、
【００７１】
【数９】

【００７２】
が設定される。但しｋ＝１、２、……Ｍである。
【００７３】
Ｍ＞ｎの場合、予測係数ｗ₁、……ｗ_nは一意的に決まらないので、誤差ベクトルｅの要素を次式、
【００７４】
【数１０】

【００７５】
によって定義し（但し、ｋ＝１、２、……、Ｍ）、次式、
【００７６】
【数１１】

【００７７】
を最小にする予測係数を求める。いわゆる、最小自乗法による解法である。
【００７８】
ここで、（１１）式によるｗ_nの偏微分係数を求める。この場合、次式、
【００７９】
【数１２】

【００８０】
を「０」にするように、各Ｗ_n（ｎ＝１〜６）を求めれば良い。
【００８１】
そして、次式、
【００８２】
【数１３】

【００８３】
【数１４】

【００８４】
のように、Ｘ_ij、Ｙ_iを定義すると、（１２）式は行列を用いて次式、
【００８５】
【数１５】

【００８６】
として表される。
【００８７】
この方程式は、一般に正規方程式と呼ばれている。なお、ここではｎ＝６である。
【００８８】
全ての学習用データ（教師オーディオデータＤ３０、クラスコードclass 、オーディオ波形データＤ３３）の入力が完了した後、予測係数算出部３６は各クラスコードclass に上述の（１５）式に示した正規方程式を立てて、この正規方程式を掃き出し法等の一般的な行列解法を用いて、各Ｗ_nについて解き、各クラスコード毎に、予測係数を算出する。予測係数算出部３６は、算出された各予測係数（Ｄ３６）を予測係数メモリ１５に書き込む。
【００８９】
このような学習を行った結果、予測係数メモリ１５には、量子化データｑ₁、……、ｑ₆で規定されるパターン毎に、高音質のオーディオデータｙを推定するための予測係数が、各クラスコード毎に格納される。この予測係数メモリ１５は、図１について上述したオーディオ信号処理装置１０において用いられる。かかる処理により、線形推定式に従って通常のオーディオデータから高音質のオーディオデータを作成するための予測係数の学習が終了する。
【００９０】
このように、学習回路３０は、オーディオ信号処理装置１０において補間処理を行う程度を考慮して、生徒信号生成フィルタ３７で高音質の教師オーディオデータの間引き処理を行うことにより、オーディオ信号処理装置１０における補間処理のための予測係数を生成することができる。
【００９１】
以上の構成において、オーディオ信号処理装置１０は、入力オーディオデータＤ１０に対して高速フーリエ変換を行うことにより、周波数軸上にパワースペクトルを算出する。周波数分析（高速フーリエ変換）は、時間軸波形データからでは知りえない微妙な違いを発見することが可能であることにより、オーディオ信号処理装置１０は、時間軸領域に特徴を見い出せない微妙な特徴を見い出し得るようになる。
【００９２】
微妙な特徴を見い出し得る状態（すなわち、パワースペクトルを算出した状態）において、オーディオ信号処理装置１０は、選択範囲設定手段（ユーザが入力手段１８から手動で行う選択設定）に応じて、有意とされるパワースペクトルデータのみを抽出（すなわち、Ｎ／２−ｍ個）する。
【００９３】
これによりオーディオ信号処理装置１０は、処理負担を一段と軽減することができ、かつ処理速度を向上させることができる。
【００９４】
このように、オーディオ信号処理装置１０は、周波数分析を行うことにより、微妙な特徴を見い出し得るようになされたパワースペクトルデータを算出し、さらに算出したパワースペクトルデータから有意とされるパワースペクトルデータのみを抽出する。従ってオーディオ信号処理装置１０は、必要最低限の有意なパワースペクトルデータのみを抽出したことになり、当該抽出したパワースペクトルデータに基づいて、そのクラスを特定する。
【００９５】
そしてオーディオ信号処理装置１０は、抽出した有意なパワースペクトルデータに基づいて特定したクラスに基づく予測係数を用いて入力オーディオデータＤ１０を予測演算することにより、当該入力オーディオデータＤ１０を一段と高音質のオーディオデータＤ１６に変換することができる。
【００９６】
また、クラス毎の予測係数を生成する学習時において、位相の異なる多数の教師オーディオデータについてそれぞれに対応した予測係数を求めておくことにより、オーディオ信号処理装置１０における入力オーディオデータＤ１０のクラス分類適応処理時に位相変動が生じても、位相変動に対応した処理を行うことができる。
【００９７】
以上の構成によれば、周波数分析を行うことにより、微妙な特徴を見い出し得るようになされたパワースペクトルデータから有意とされるパワースペクトルデータのみを抽出し、これをクラス分類した結果に基づく予測係数を用いて入力オーディオデータＤ１０を予測演算するようにしたことにより、入力オーディオデータＤ１０を一段と高音質のオーディオデータＤ１６に変換することができる。
【００９８】
なお上述の実施の形態においては、窓関数としてハミング窓を用いて乗算する場合について述べたが、本発明はこれに限らず、ハミング窓に代えて、例えばハニング窓やブラックマン窓等、他の種々の窓関数によって乗算する、又はスペクトル処理部において予め各種窓関数（ハミング窓、ハニング窓及びブラックマン窓等）を用いて乗算し得るようにしておき、入力されるディジタルオーディオ信号の周波数特性に応じて、スペクトル処理部が所望の窓関数を用いて乗算するようにしても良い。
【００９９】
因みに、スペクトル処理部がハニング窓を用いて乗算する場合、スペクトル処理部は、切り出し部から供給されたクラスタップに対して、次式、
【０１００】
【数１６】

【０１０１】
からなるハニング窓を乗算して乗算データを算出する。
【０１０２】
また、スペクトル処理部がブラックマン窓を使用して乗算する場合、スペクトル処理部は、切り出し部から供給されたクラスタップに対して、次式、
【０１０３】
【数１７】

【０１０４】
からなるブラックマン窓を乗算して乗算データを算出する。
【０１０５】
また上述の実施の形態においては、高速フーリエ変換を用いる場合について述べたが、本発明はこれに限らず、例えば離散フーリエ変換（ＤＦＴ：Discrete Fourier Transformer）や離散コサイン変換（ＤＣＴ：Discrete Cosine Transform ）又は最大エントロピー法、さらには線形予測分析による方法等、他の種々の周波数分析手段を適用することができる。
【０１０６】
さらに上述の実施の形態においては、スペクトル処理部１１がゼロ値からＮ／２までの左側のパワースペクトルデータ群ＡＲ１（図５）のみを抽出対象とする場合について述べたが、本発明はこれに限らず、右側のパワースペクトルデータ群ＡＲ２（図５）のみを抽出対象とするようにしても良い。
【０１０７】
この場合、オーディオ信号処理装置１０の処理負担を一段と軽減することができ、処理速度を一段と向上させることができる。
【０１０８】
さらに上述の実施の形態においては、圧縮データパターンを生成するパターン生成手段として、ＡＤＲＣを行う場合について述べたが、本発明はこれに限らず、例えば可逆符号化（ＤＰＣＭ：Differential Pulse Code Modulation）やベクトル量子化（ＶＱ：Vector Quantize ）等の圧縮手段を用いるようにしても良い。要は、信号波形のパターンを少ないクラスで表現し得るような圧縮手段であれば良い。
【０１０９】
さらに上述の実施の形態においては、ユーザが手動で選択操作し得る選択範囲設定手段として、人間の声及び音声を選択（すなわち、抽出する周波数成分として５００Ｈｚ〜４ｋＨｚ又は２０Ｈｚ〜２０ｋＨｚ）する場合について述べたが、本発明はこれに限らず、例えば図７に示すように、高域（ＵＰＰ）、中域（ＭＩＤ）及び低域（ＬＯＷ）のいづれかの周波数成分を選択する、又は図８に示すように、まばらに周波数成分を選択する、さらには図９に示すように、不均一に帯域を周波数成分する等、他の種々の選択範囲設定手段を適用し得る。
【０１１０】
この場合、オーディオ信号処理装置には、新たに設けられた選択範囲設定手段に対応するプログラムを作成してハードディスクドライブやＲＯＭ等、所定の記憶手段に格納させる。これにより、ユーザが手動で入力手段１８を介して新たに設けられた選択範囲設定手段を選択操作した場合においても、このとき選択された選択範囲設定手段に応じた制御データが入力手段からスペクトル処理部に出力され、これによりスペクトル処理部は、新たに設けられた選択範囲設定手段に対応するプログラムによって、所望の周波数成分からパワースペクトルデータの抽出を行う。
【０１１１】
このようにすれば、他の種々の選択範囲設定手段を適用することができ、ユーザの意図に応じた有意なパワースペクトルデータを抽出することができる。
【０１１２】
さらに上述の実施の形態においては、オーディオ信号処理装置１０（図２）がプログラムによってクラスコード生成処理手順を実行する場合について述べたが、本発明はこれに限らず、ハードウェア構成によってこれらの機能を実現して種々のディジタル信号処理装置（例えば、レートコンバータ、オーバーサンプリング処理装置、ＢＳ(Broadcasting Satellite)放送等に用いられているＰＣＭ(Pulse Code Modulation) ディジタル音声エラー訂正を行うＰＣＭエラー修正装置等）内に設けたり、又は各機能を実現するプログラムを格納したプログラム格納媒体（フロッピーディスク、光ディスク等）からこれらのプログラムを種々のディジタル信号処理装置にロードして各機能部を実現するようにしても良い。
【０１１３】
【発明の効果】
上述のように本発明によれば、ディジタルオーディオ信号からパワースペクトルデータを算出し、算出されたパワースペクトルデータから一部のパワースペクトルデータを抽出し、抽出された一部のパワースペクトルデータに基づいてそのクラスを分類し、分類されたクラスに対応した予測方式でディジタルオーディオ信号を変換するようにしたことにより、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができ、かくして、ディジタルオーディオ信号の波形再現性を一段と向上した高音質のディジタルオーディオ信号への変換を行うことができる。
【図面の簡単な説明】
【図１】本発明によるオーディオ信号処理装置を示す機能ブロック図である。
【図２】本発明によるオーディオ信号処理装置を示すブロック図である。
【図３】オーディオデータの変換処理手順を示すフローチャートである。
【図４】対数データ算出処理手順を示すフローチャートである。
【図５】パワースペクトルデータ算出例を示す略線図である。
【図６】学習回路の構成を示すブロック図である。
【図７】パワースペクトルデータ選択例を示す略線図である。
【図８】パワースペクトルデータ選択例を示す略線図である。
【図９】パワースペクトルデータ選択例を示す略線図である。
【符号の説明】
１０……オーディオ信号処理装置、１１……スペクトル処理部、２２……ＲＯＭ、１５……ＲＡＭ、２４……通信インターフェイス、２５……ハードディスクドライブ、２６……入力手段、２７……データ入出力部、２８……リムーバブルドライブ。

Claims

ディジタルオーディオ信号を単位領域ごとに切り出す切出ステップと、
上記単位領域のパワースペクトルデータを算出する周波数分析ステップと、
上記パワースペクトルデータから一部のパワースペクトルデータを抽出するスペクトルデータ抽出ステップと、
上記一部のパワースペクトルデータに基づいてそのクラスを分類するクラス分類ステップと、
分類されるクラスに対応付けられる係数と、上記単位領域との積和演算により上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算ステップと
を有するディジタル信号処理方法。
上記周波数分析ステップでは、窓関数の各種演算処理方法が具えられ、
上記ディジタルオーディオ信号の周波数特性に応じて、所望の上記演算処理方法が用いられる
請求項１に記載のディジタル信号処理方法。
上記スペクトルデータ抽出ステップでは、
上記一部のパワースペクトルデータを抽出する際、直流成分のパワースペクトルデータが除かれる
請求項１に記載のディジタル信号処理方法。
上記予測演算ステップでは、
予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数が用いられる
請求項１に記載のディジタル信号処理方法。
上記パワースペクトルデータは、ほぼ左右対称の成分からなり、
上記スペクトルデータ抽出ステップでは、
上記パワースペクトルデータのうち、左右いづれかの成分が抽出対象とされる
請求項１に記載のディジタル信号処理方法。
ディジタルオーディオ信号を単位領域ごとに切り出す切出手段と、
上記単位領域のパワースペクトルデータを算出する周波数分析手段と、
上記パワースペクトルデータから一部のパワースペクトルデータを抽出するスペクトルデータ抽出手段と、
上記一部のパワースペクトルデータに基づいてそのクラスを分類するクラス分類手段と、
分類されるクラスに対応付けられる係数と、上記単位領域との積和演算により上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算手段と
を有するディジタル信号処理装置。
上記周波数分析手段は、窓関数の各種演算処理手段を具え、
上記ディジタルオーディオ信号の周波数特性に応じて、所望の上記演算処理手段を用いる
請求項６に記載のディジタル信号処理装置。
上記スペクトルデータ抽出手段は、
上記一部のパワースペクトルデータを抽出する際、直流成分のパワースペクトルデータを除く
請求項６に記載のディジタル信号処理装置。
上記予測演算手段は、
予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数を用いる
請求項６に記載のディジタル信号処理装置。
上記パワースペクトルデータは、ほぼ左右対称の成分からなり、
上記スペクトルデータ抽出手段は、
上記パワースペクトルデータのうち、左右いづれかの成分を抽出対象とする
請求項６に記載のディジタル信号処理装置。
ディジタルオーディオ信号を単位領域ごとに切り出す切出ステップと、
上記単位領域のパワースペクトルデータを算出する周波数分析ステップと、
上記パワースペクトルデータから一部のパワースペクトルデータを抽出するスペクトルデータ抽出ステップと、
上記一部のパワースペクトルデータに基づいてそのクラスを分類するクラス分類ステップと、
分類されるクラスに対応付けられる係数と、上記単位領域との積和演算により上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測ステップと
を実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
上記周波数分析ステップでは、窓関数の各種演算処理方法が具えられ、
上記ディジタルオーディオ信号の周波数特性に応じて、所望の上記演算処理方法が用いられる
請求項１１に記載のプログラム格納媒体。
上記スペクトルデータ抽出ステップでは、
上記一部のパワースペクトルデータを抽出する際、直流成分のパワースペクトルデータが除かれる
請求項１１に記載のプログラム格納媒体。
上記パワースペクトルデータは、ほぼ左右対称の成分からなり、
上記スペクトルデータ抽出ステップでは、
上記パワースペクトルデータのうち、左右いづれかの成分が抽出対象とされる
請求項１１に記載のプログラム格納媒体。
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成ステップと、
上記生徒ディジタルオーディオ信号からパワースペクトルデータを算出する周波数分析ステップと、
上記パワースペクトルデータから一部のパワースペクトルデータを抽出するスペクトルデータ抽出ステップと、
上記一部のパワースペクトルデータに基づいてそのクラスを分類するクラス分類ステップと、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと
を有する学習方法。
上記周波数分析ステップでは、窓関数の各種演算処理方法が具えられ、
上記ディジタルオーディオ信号の周波数特性に応じて、所望の上記演算処理方法が用いられる
請求項１５に記載の学習方法。
上記スペクトルデータ抽出ステップでは、
上記一部のパワースペクトルデータを抽出する際、直流成分のパワースペクトルデータが除かれる
請求項１５に記載の学習方法。
上記パワースペクトルデータは、ほぼ左右対称の成分からなり、
上記スペクトルデータ抽出ステップでは、
上記パワースペクトルデータのうち、左右いづれかの成分が抽出対象とされる
請求項１５に記載の学習方法。
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成手段と、
上記生徒ディジタルオーディオ信号からパワースペクトルデータを算出する周波数分析手段と、
上記パワースペクトルデータから一部のパワースペクトルデータを抽出するスペクトルデータ抽出手段と、
上記一部のパワースペクトルデータに基づいてそのクラスを分類するクラス分類手段と、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出手段と
を有する学習装置。
上記周波数分析手段は、窓関数の各種演算処理手段を具え、
上記ディジタルオーディオ信号の周波数特性に応じて、所望の上記演算処理手段を用いる
請求項１９に記載の学習装置。
上記スペクトルデータ抽出手段は、
上記一部のパワースペクトルデータを抽出する際、直流成分のパワースペクトルデータを除く
請求項１９に記載の学習装置。
上記パワースペクトルデータは、ほぼ左右対称の成分からなり、
上記スペクトルデータ抽出手段は、
上記パワースペクトルデータのうち、左右いづれかの成分を抽出対象とする
請求項１９に記載の学習装置。
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成ステップと、
上記生徒ディジタルオーディオ信号からパワースペクトルデータを算出する周波数分析ステップと、
上記パワースペクトルデータから一部のパワースペクトルデータを抽出するスペクトルデータ抽出ステップと、
上記一部のパワースペクトルデータに基づいてそのクラスを分類するクラス分類ステップと、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと
を実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
上記周波数分析ステップでは、窓関数の各種演算処理方法が具えられ、
上記ディジタルオーディオ信号の周波数特性に応じて、所望の上記演算処理方法が用いられる
請求項２３に記載のプログラム格納媒体。
上記スペクトルデータ抽出ステップでは、
上記一部のパワースペクトルデータを抽出する際、直流成分のパワースペクトルデータが除かれる
請求項２３に記載のプログラム格納媒体。
上記パワースペクトルデータは、ほぼ左右対称の成分からなり、
上記スペクトルデータ抽出ステップでは、
上記パワースペクトルデータのうち、左右いづれかの成分が抽出対象とされる
請求項２３に記載のプログラム格納媒体。