JP4645867B2

JP4645867B2 - ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Info

Publication number: JP4645867B2
Application number: JP2000238892A
Authority: JP
Inventors: 哲二郎近藤; 勉渡辺; 正明服部; 裕人木村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-08-02
Filing date: 2000-08-02
Publication date: 2011-03-09
Anticipated expiration: 2020-08-02
Also published as: JP2002049383A

Description

【０００１】
【発明の属する技術分野】
本発明はディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に関し、レートコンバータ又はＰＣＭ(Pulse Code Modulation) 復号装置等においてディジタル信号に対してデータの補間処理を行うディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に適用して好適なものである。
【０００２】
【従来の技術】
従来、ディジタルオーディオ信号をディジタル／アナログコンバータに入力する前に、サンプリング周波数を元の値の数倍に変換するオーバサンプリング処理を行っている。これにより、ディジタル／アナログコンバータから出力されたディジタルオーディオ信号はアナログ・アンチ・エイリアス・フィルタの位相特性が可聴周波数高域で一定に保たれ、また、サンプリングに伴うディジタル系のイメージ雑音の影響が排除されるようになされている。
【０００３】
かかるオーバサンプリング処理では、通常、線形一次（直線）補間方式のディジタルフィルタが用いられている。このようなディジタルフィルタは、サンプリングレートが変わったりデータが欠落した場合等に、複数の既存データの平均値を求めて直線的な補間データを生成するものである。
【０００４】
【発明が解決しようとする課題】
ところが、オーバサンプリング処理後のディジタルオーディオ信号は、線形一次補間によって時間軸方向に対してデータ量が数倍に緻密になっているものの、オーバサンプリング処理後のディジタルオーディオ信号の周波数帯域は変換前とあまり変わらず、音質そのものは向上していない。さらに、補間されたデータは必ずしもＡ／Ｄ変換前のアナログオーディオ信号の波形に基づいて生成されたのではないため、波形再現性もほとんど向上していない。
【０００５】
また、サンプリング周波数の異なるディジタルオーディオ信号をダビングする場合において、サンプリング・レート・コンバータを用いて周波数を変換しているが、かかる場合でも線形一次ディジタルフィルタによって直線的なデータの補間しか行うことができず、音質や波形再現性を向上することが困難であった。さらに、ディジタルオーディオ信号のデータサンプルが欠落した場合において同様である。
【０００６】
本発明は以上の点を考慮してなされたもので、ディジタル信号の波形再現性を一段と向上し得るディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体を提案しようとするものである。
【０００７】
【課題を解決するための手段】
かかる課題を解決するため本発明においては、ゼロレベルを基準としてディジタルオーディオ信号の極性に基づいてディジタルオーディオ信号のクラスを分類し、当該分類されたクラスに対応した予測方式でディジタルオーディオ信号を変換するようにしたことにより、音素に応じてクラス分類することができるので、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【０００８】
【発明の実施の形態】
以下図面について、本発明の一実施の形態を詳述する。
【０００９】
図１においてオーディオ信号処理装置１０は、ディジタルオーディオ信号（以下これをオーディオデータと呼ぶ）のサンプリングレートを上げたり、オーディオデータを補間する際に、真値に近いオーディオデータをクラス分類適用処理によって生成するようになされている。因みに、ディジタルオーディオ信号とは、人や動物が発する声を表す音声信号、楽器が発する楽音を表す楽音信号、及びその他の音を表す信号を意味するものである。
【００１０】
すなわち、オーディオ信号処理装置１０において、極性判別部１１は入力端子Ｔ_INから供給された図２に示す入力オーディオデータＤ１０を所定時間毎の領域（この実施の形態の場合、例えば６サンプル毎とする）に分割した後、当該分割された各時間領域の波形について、図２に示す極性判別方法によりその極性クラスを判別する。
【００１１】
すなわち図２において、分割された領域ＡＲ１（カレントデータＣ１）のように切り出されたすべてのタップが正である場合、この極性クラスを CLASS０とし、分割された領域ＡＲ２（カレントデータＣ２）のように切り出された領域内にゼロクロスが存在すると共にカレントデータ（Ｃ２）が正である場合、この極性クラスを CLASS１とし、分割された領域ＡＲ４（カレントデータＣ４）のように切り出された切り出された領域内にゼロクロスが存在すると共にカレントデータ（Ｃ４）が負である場合、この極性クラスを CLASS２とし、分割された領域ＡＲ３（カレントデータＣ３）のように切り出されたすべてのタップが負である場合、この極性クラスを CLASS３とする。
【００１２】
このように、オーディオデータＤ１０の極性に基づく極性クラスを設定することにより、オーディオデータＤ１０がゼロレベル近傍である場合の音素と大振幅部での音素とを正負両方の領域で一段と明確に区別することができる。
【００１３】
極性判別部１１は入力オーディオデータＤ１０のこのときのカレントデータに対応して求められた極性判別結果（ CLASS０、 CLASS１、 CLASS２又は CLASS３）を極性クラスデータＤ１１としてクラス分類部１４に供給する。
【００１４】
また、クラス分類部抽出部１２は入力端子Ｔ_INから供給された入力オーディオデータＤ１０を、極性判別出部１１の場合と同様の時間領域（この実施の形態の場合例えば６サンプル）に分割することによりクラス分類しようとするオーディオ波形データＤ１２を抽出し、これをクラス分類部１４に供給する。
【００１５】
クラス分類部１４は、クラス分類抽出部１２において切り出されたオーディオ波形データＤ１２について、当該オーディオ波形データＤ１２を圧縮して圧縮データパターンを生成するＡＤＲＣ(Adaptive Dynamic Range Coding) 回路部と、オーディオ波形データＤ１２の属するクラスコードを発生するクラスコード発生回路部とを有する。
【００１６】
ＡＤＲＣ回路部はオーディオ波形データＤ１２に対して、例えば８ビットから２ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このＡＤＲＣ回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【００１７】
具体的には、オーディオ波形上の６つの８ビットのデータ（オーディオ波形データ）をクラス分類しようとする場合、２⁴⁸という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部１４ではその内部に設けられたＡＤＲＣ回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば６つのオーディオ波形データに対して１ビットの量子化を実行すると、６つのオーディオ波形データを６ビットで表すことができ、２⁶＝６４クラスに分類することができる。
【００１８】
ここで、ＡＤＲＣ回路部は、切り出された領域内のオーディオ波形のダイナミックレンジをＤＲ、ビット割り当をｍ、各オーディオ波形データのデータレベルをＬ、量子化コードをＱとすると、次式、
【００１９】
【数１】

【００２０】
に従って、領域内の最大値ＭＡＸと最小値ＭＩＮとの間を指定されたビット長で均等に分割して量子化を行う。なお、（１）式において｛｝は小数点以下の切り捨て処理を意味する。かくしてオーディオ波形上の６つの波形データが、それぞれ例えば８ビット（ｍ＝８）で構成されているとすると、これらはＡＤＲＣ回路部においてそれぞれが２ビットに圧縮される。
【００２１】
このようにしてダイナミックレンジで正規化され圧縮されたオーディオ波形データをそれぞれｑ_n（ｎ＝１〜６）とすると、クラス分類部１４に設けられたクラスコード発生回路部は、圧縮されたオーディオ波形データｑ_nに基づいて、次式、
【００２２】
【数２】

【００２３】
に示す演算を実行することにより、そのブロック（ｑ₁〜ｑ₆）が属するクラスを示すクラスコードclass を算出すると共に、当該算出されたオーディオ波形データＤ１２に基づくクラスコード classに対して、上述の極性クラス CLASSを統合した後、当該統合されたクラスコード class′を表すクラスコードデータＤ１４を予測係数メモリ１５に供給する。このクラスコードclass ′は、予測係数メモリ１５から予測係数を読み出す際の読み出しアドレスを示す。因みに（２）式において、ｎは圧縮されたオーディオ波形データｑ_nの数を表し、この実施の形態の場合ｎ＝６であり、またＰはビット割り当てを表し、この実施の形態の場合Ｐ＝２である。
【００２４】
このようにして、クラス分類部１４はクラス分類部抽出部１２において入力オーディオデータＤ１０から切り出されたオーディオ波形データＤ１２そのもののクラスコード classと、オーディオ波形データＤ１２の極性クラス CLASSとを統合したクラスコードデータ（ class′）Ｄ１４を生成し、これを予測係数メモリ１５に供給する。因みに、オーディオ波形データＤ１２そのもののクラスコード classと、オーディオ波形データＤ１２の極性クラス CLASSとを統合する方法として、クラス分類部１４は例えばオーディオ波形データＤ１２そのもののクラスコード classに極性クラス CLASSを付加することにより、これらを統合することができる。
【００２５】
予測係数メモリ１５には、各クラスコードに対応する予測係数のセットがクラスコードに対応するアドレスにそれぞれ記憶されており、クラス分類部１４から供給されるクラスコードデータＤ１４に基づいて、当該クラスコードに対応するアドレスに記憶されている予測係数のセットｗ₁〜ｗ_nが読み出され、予測演算部１６に供給される。
【００２６】
予測演算部１６は、予測演算部抽出部１３において入力オーディオデータＤ１０から時間軸領域で切り出された予測演算しようとするオーディオ波形データ（予測タップ）Ｄ１３（ｘ₁〜ｘ_n）と、予測係数ｗ₁〜ｗ_nに対して、次式
【００２７】
【数３】

【００２８】
に示す積和演算を行うことにより、予測結果ｙ′を得る。この予測値ｙ′が、音質が改善されたオーディオデータＤ１６として予測演算部１６から出力される。
【００２９】
なお、オーディオ信号処理装置１０の構成として図１について上述した機能ブロックを示したが、この機能ブロックを構成する具体的構成として、この実施の形態においては図３に示すコンピュータ構成の装置を用いる。すなわち、図３において、オーディオ信号処理装置１０は、バスＢＵＳを介してＣＰＵ２１、ＲＯＭ(Read Only Memory)２２、予測係数メモリ１５を構成するＲＡＭ(Random Access Memory)１５、及び各回路部がそれぞれ接続された構成を有し、ＣＰＵ１１はＲＯＭ２２に格納されている種々のプログラムを実行することにより、図１について上述した各機能ブロック（極性判別部１１、クラス分類部抽出部１２、予測演算部抽出部１３、クラス分類部１４及び予測演算部１６）として動作するようになされている。
【００３０】
また、オーディオ信号処理装置１０にはネットワークとの間で通信を行う通信インターフェース２４、フロッピィディスクや光磁気ディスク等の外部記憶媒体から情報を読み出すリムーバブルドライブ２８を有し、ネットワーク経由又は外部記憶媒体から図１について上述したクラス分類適用処理を行うための各プログラムをハードディスク装置２５のハードディスクに読み込んみ、当該読み込まれたプログラムに従ってクラス分類適応処理を行うこともできる。
【００３１】
ユーザは、キーボードやマウス等の入力手段２６を介して種々のコマンドを入力することにより、ＣＰＵ２１に対して図１について上述したクラス分類処理を実行させる。この場合、オーディオ信号処理装置１０はデータ入出力部２７を介して音質を向上させようとするオーディオデータ（入力オーディオデータ）Ｄ１０を入力し、当該入力オーディオデータＤ１０に対してクラス分類適用処理を施した後、音質が向上したオーディオデータＤ１６をデータ入出力部２７を介して外部に出力し得るようになされている。
【００３２】
因みに、図４はオーディオ信号処理装置１０におけるクラス分類適応処理の処理手順を示し、オーディオ信号処理装置１０はステップＳＰ１１から当該処理手順に入ると、続くステップＳＰ１２において入力オーディオデータＤ１０の極性を極性判別部１１において算出する。
【００３３】
この算出された極性はオーティオ波形データＤ１２のクラス分類を一段と確実にするためのもであり、オーディオ信号処理装置１０は、ステップＳＰ１３においてクラス分類部１４によりオーディオ波形データＤ１２及び極性クラスＤ１１に基づいてオーディオ波形データＤ１２をクラス分類する。そしてオーディオ信号処理装置１０は、クラス分類の結果得られたクラスコードを用いて予測係数メモリ１５から予測係数を読み出す。この予測係数は予め学習によりクラス毎に対応して格納されており、オーディオ信号処理装置１０はクラスコードに対応した予測係数を読み出すことにより、このときのオーディオ波形の特徴に合致した予測係数を用いることができる。
【００３４】
予測係数メモリ１５から読み出された予測係数は、ステップＳＰ１４において予測演算部１６の予測演算に用いられる。これにより、入力オーディオデータＤ１０はその極性に応じた予測演算により、所望とするオーディオデータＤ１６に変換される。かくして入力オーディオデータＤ１０はその音質が改善されたオーディオデータＤ１６に変換され、オーディオ信号処理装置１０はステップＳＰ１５に移って当該処理手順を終了する。
【００３５】
次に、図１について上述した予測係数メモリ１５に記憶するクラス毎の予測係数のセットを予め学習によって得るための学習回路について説明する。
【００３６】
図５において、学習回路３０は、高音質の教師オーディオデータＤ３０を生徒信号生成フィルタ３７に受ける。生徒信号生成フィルタ３７は、間引き率設定信号Ｄ３９により設定された間引き率で教師オーディオデータＤ３０を所定時間ごとに所定サンプル間引くようになされている。
【００３７】
この場合、生徒信号生成フィルタ３７における間引き率によって、生成される予測係数が異なり、これに応じて上述のオーディオ信号処理装置１０で再現されるオーディオデータも異なる。例えば、上述のオーディオ信号処理装置１０においてサンプリング周波数を高くすることでオーディオデータの音質を向上しようとする場合、生徒信号生成フィルタ３７ではサンプリング周波数を減らす間引き処理を行う。また、これに対して上述のオーディオ信号処理装置１０において入力オーディオデータＤ１０の欠落したデータサンプルを補うことで音質の向上を図る場合には、これに応じて、生徒信号生成フィルタ３７ではデータサンプルを欠落させる間引き処理を行うようになされている。
【００３８】
かくして、生徒信号生成フィルタ３７は教師オーディオデータ３０から所定の間引き処理により生徒オーディオデータＤ３７を生成し、これを極性判別部３１、クラス分類部抽出部３２及び予測演算部抽出部３３にそれぞれ供給する。
【００３９】
極性判別部３１は生徒信号生成フィルタ３７から供給された生徒オーディオデータＤ３７を所定時間毎の領域（この実施の形態の場合、例えば６サンプル毎とする）に分割した後、当該分割された各時間領域の波形について、その極性クラスを図２について上述したように分類する。
【００４０】
そして極性判別部３１は生徒オーディオデータＤ３７のこのとき分割された時間領域の極性判別結果を生徒オーディオデータＤ３７の極性クラスデータＤ３１としてクラス分類部３４に供給する。
【００４１】
また、クラス分類部抽出部３２は生徒信号生成フィルタ３７から供給された生徒オーディオデータＤ３７を、極性判別部３１の場合と同様の時間領域（この実施の形態の場合例えば６サンプル）に分割することによりクラス分類しようとするオーディオ波形データＤ３２を抽出し、これをクラス分類部３４に供給する。
【００４２】
クラス分類部３４は、クラス分類抽出部３２において切り出されたオーディオ波形データＤ３２について、当該オーディオ波形データＤ３２を圧縮して圧縮データパターンを生成するＡＤＲＣ(Adaptive Dynamic Range Coding) 回路部と、オーディオ波形データＤ３２の属するクラスコードを発生するクラスコード発生回路部とを有する。
【００４３】
ＡＤＲＣ回路部はオーディオ波形データＤ３２に対して、例えば８ビットから２ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このＡＤＲＣ回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【００４４】
具体的には、オーディオ波形上の６つの８ビットのデータ（オーディオ波形データ）をクラス分類しようとする場合、２⁴⁸という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部１４ではその内部に設けられたＡＤＲＣ回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば６つのオーディオ波形データに対して１ビットの量子化を実行すると、６つのオーディオ波形データを６ビットで表すことができ、２⁶＝６４クラスに分類することができる。
【００４５】
ここで、ＡＤＲＣ回路部は、切り出された領域内のオーディオ波形のダイナミックレンジをＤＲ、ビット割り当をｍ、各オーディオ波形データのデータレベルをＬ、量子化コードをＱとして、上述の（１）式と同様の演算により、領域内の最大値ＭＡＸと最小値ＭＩＮとの間を指定されたビット長で均等に分割して量子化を行う。かくしてオーディオ波形上の６つの波形データが、それぞれ例えば８ビット（ｍ＝８）で構成されているとすると、これらはＡＤＲＣ回路部においてそれぞれが２ビットに圧縮される。
【００４６】
このようにしてオーディオ波形のダイナミックレンジで正規化し圧縮されたオーディオ波形データをそれぞれｑ_n（ｎ＝１〜６）とすると、クラス分類部３４に設けられたクラスコード発生回路部は、圧縮されたオーディオ波形データｑ_nに基づいて、上述の（２）式と同様の演算を実行することにより、そのブロック（ｑ₁〜ｑ₆）が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass と極性判別部３１により算出された極性クラス（ CLASS０、 CLASS１、 CLASS２又は CLASS３）とを統合した後、当該統合されてなるクラスコード class′を表すクラスコードデータＤ３４を予測係数算出部３６に供給する。因みに（２）式において、ｎは圧縮されたオーディオ波形データｑ_nの数を表し、この実施の形態の場合ｎ＝６であり、またＰはビット割り当てを表し、この実施の形態の場合Ｐ＝２である。
【００４７】
このようにして、クラス分類部３４はクラスコードデータＤ３４を生成し、これを予測係数算出部３６に供給する。また、予測係数算出部３６には、クラスコードデータＤ３４に対応した時間軸領域のオーディオ波形データＤ３３（ｘ₁、ｘ₂、……、ｘ_n）が予測演算部抽出部３３において切り出されて供給される。
【００４８】
予測係数算出部３６は、クラス分類部３４から供給されたクラスコードclass ′と、各クラスコードclass 毎に切り出されたオーディオ波形データＤ３３と、入力端Ｔ_INから供給された高音質の教師オーディオデータＤ３０とを用いて、正規方程式を立てる。
【００４９】
すなわち、生徒オーディオデータＤ３７のｎサンプルのレベルをそれぞれｘ₁、ｘ₂、……、ｘ_nとして、それぞれにｐビットのＡＤＲＣを行った結果の量子化データをｑ₁、……、ｑ_nとする。このとき、この領域のクラスコードclass ′を上述の（２）式のように定義する。そして、上述のように生徒オーディオデータＤ３７のレベルをそれぞれ、ｘ₁、ｘ₂、……、ｘ_nとし、高音質の教師オーディオデータＤ３０のレベルをｙとしたとき、クラスコード毎に、予測係数ｗ₁、ｗ₂、……、ｗ_nによるｎタップの線形推定式を設定する。これを次式、
【００５０】
【数４】

【００５１】
とする。学習前は、ｗ_nが未定係数である。
【００５２】
学習回路３０では、クラスコード毎に、複数のオーディオデータに対して学習を行う。データサンプル数がＭの場合、上述の（４）式に従って、次式、
【００５３】
【数５】

【００５４】
が設定される。但しｋ＝１、２、……Ｍである。
【００５５】
Ｍ＞ｎの場合、予測係数ｗ₁、……ｗ_nは一意的に決まらないので、誤差ベクトルｅの要素を次式、
【００５６】
【数６】

【００５７】
によって定義し（但し、ｋ＝１、２、……、Ｍ）、次式、
【００５８】
【数７】

【００５９】
を最小にする予測係数を求める。いわゆる、最小自乗法による解法である。
【００６０】
ここで、（７）式によるｗ_nの偏微分係数を求める。この場合、次式、
【００６１】
【数８】

【００６２】
を「０」にするように、各ｗ_n（ｎ＝１〜６）を求めれば良い。
【００６３】
そして、次式、
【００６４】
【数９】

【００６５】
【数１０】

【００６６】
のように、Ｘ_ij、Ｙ_iを定義すると、（８）式は行列を用いて次式、
【００６７】
【数１１】

【００６８】
として表される。
【００６９】
この方程式は、一般に正規方程式と呼ばれている。なお、ここではｎ＝６である。
【００７０】
全ての学習用データ（教師オーディオデータＤ３０、クラスコードclass ′、オーディオ波形データＤ３３）の入力が完了した後、予測係数算出部３６は各クラスコードclass ′に上述の（１１）式に示した正規方程式を立てて、この正規方程式を掃き出し法等の一般的な行列解法を用いて、各Ｗ_nについて解き、各クラスコード毎に、予測係数を算出する。予測係数算出部３６は、算出された各予測係数（Ｄ３６）を予測係数メモリ１５に書き込む。
【００７１】
このような学習を行った結果、予測係数メモリ１５には、量子化データｑ₁、……、ｑ₆で規定されるパターン毎に、高音質のオーディオデータｙを推定するための予測係数が、各クラスコード毎に格納される。この予測係数メモリ１５は、図１について上述したオーディオ信号処理装置１０において用いられる。かかる処理により、線形推定式に従って通常のオーディオデータから高音質のオーディオデータを作成するための予測係数の学習が終了する。
【００７２】
このように、学習回路３０は、オーディオ信号処理装置１０において補間処理を行う程度を考慮して、生徒信号生成フィルタ３７で高音質の教師オーディオデータの間引き処理を行うことにより、オーディオ信号処理装置１０における補間処理のための予測係数を生成することができる。
【００７３】
以上の構成において、オーディオ信号処理装置１０は、クラス分類部１４のＡＤＲＣ処理においてオーディオ波形をそのダイナミックレンジで正規化することでオーディオ波形そのもののクラスコード classを得る。この場合、オーディオ波形のゼロレベル近傍及び大振幅部では音素が異なっている場合が多く、単にダイナミックレンジで正規化した結果でクラス分類を行うと、元々異なる音素であっても同一クラスと見なされてしまうことがある。従って、クラス分類部１４では、オーディオ波形そのもののクラスコード classに、オーディオ波形の極性クラス CLASSを統合してクラスコード class′を算出し、これをクラス分類結果として予測演算に用いることにより、オーディオ波形そのものから得られたクラスコード classが同一クラスとなった場合でも、オーディオ波形の極性クラスに応じて確実にクラス分類することができる。
【００７４】
例えば、極性クラスが CLASS０又は CLASS３である場合、このことは切り出されたオーディオ波形データの値が全て正又は負であること、すなわち比較的大振幅の波形部分であることを表しており、また、極性クラスが CLASS１又は CLASS２である場合、このことは切り出されたオーディオ波形がゼロクロス部と正又は負とを含む波形であること、すなわち比較的ゼロレベル近傍の波形部分であることを表しており、クラス分類部１４はかかる極性クラスをオーディオ波形データそのもののクラスコード classに統合してクラス分類を行うことにより、異なる音素を異なるクラスコードとして分類することができる。
【００７５】
以上の構成によれば、入力オーディオデータＤ１０の極性クラスを用いて入力オーディオデータＤ１０をクラス分類し、当該クラス分類された結果に基づく予測係数を用いて予測演算するようにしたことにより、入力オーディオデータＤ１０を一段と高音質のオーディオデータＤ１６に変換することができる。
【００７６】
なお上述の実施の形態においては、オーディオ信号処理装置１０及び学習装置３０において、クラス分類部抽出部１２、３２及び予測演算部抽出部１３、３３により入力オーディオデータＤ１０、Ｄ３７を常に一定の範囲毎に切り出す場合について述べたが、本発明はこれに限らず、例えば図１及び図５との対応部分に同一符号を付して示す図６及び図７に示すように、極性判別部１１、３１において算出された極性クラスに基づいて抽出制御信号ＣＯＮＴ１１、ＣＯＮＴ３１を可変クラス分類部抽出部１２′、可変予測演算部抽出部１３′及び可変クラス分類部抽出部３２′、可変予測演算部抽出部３３′に供給することにより入力オーディオデータＤ１０、Ｄ３７の切り出し範囲（タップ）を制御するようにしても良い。
【００７７】
この場合、極性判別部１１、３１は、極性クラス CLASS０、 CLASS１、 CLASS２及び CLASS３の頻度に基づいて切り出し範囲（タップの切り出し長）を制御することにより、タップの切り出し長を長くし過ぎることによる正極性のみ（ CLASS０）又は負極性のみ（ CLASS３）への分類頻度の低下を防止することができる。
【００７８】
この場合、オーディオデータの変換処理手順は図４との対応部分に同一符号を付して示す図８に示すように、オーディオ波形の極性を判別するステップＳＰ１２の次に、当該判別された極性に基づいて可変クラス分類部抽出部１２′、３２′及び可変予測演算部抽出部１３′、３３′におけるタップ抽出領域を制御する処理ステップＳＰ２１を挿入するようにすれば良い。
【００７９】
また上述の実施の形態においては、極性クラスとして４つの極性クラス CLASS０、 CLASS１、 CLASS２及び CLASS３を設ける場合について述べたが、本発明はこれに限らず、全て正の領域、全て負の領域、ゼロクロスを含む領域の３つの極性クラスに分類するようにしても良い。
【００８０】
また上述の実施の形態においては、予測方式として線形一次による手法を用いる場合について述べたが、本発明はこれに限らず、要は学習した結果を用いるようにすれば良く、例えば多次関数による手法等の種々の予測方式を適用することができる。
【００８１】
また上述の実施の形態においては、クラス分類部１４においてＡＤＲＣにより圧縮データパターンを生成する場合について述べたが、本発明はこれに限らず、可逆符号化（ＤＰＣＭ:Differrential Pulse Code Modulation) 又はベクトル量子化（ＶＱ:Vector Quantize) 等の圧縮手段を用いるようにしても良い。
【００８２】
また上述の実施の形態においては、学習回路３０の生徒信号生成フィルタ３７において教師オーディオデータＤ３０から所定サンプル数を間引く場合について述べたが、本発明はこれに限らず、例えばビット数を削減する等、他の種々の方法を適用することができる。
【００８３】
【発明の効果】
かかる課題を解決するため本発明においては、ゼロレベルを基準としてディジタルオーディオ信号の極性に基づいてディジタルオーディオ信号のクラスを分類し、当該分類されたクラスに対応した予測方式でディジタルオーディオ信号を変換するようにしたことにより、音素に応じてクラス分類することができるので、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【図面の簡単な説明】
【図１】本発明によるディジタル信号処理装置の構成を示すブロック図である。
【図２】極性判別の説明に供する信号波形図である。
【図３】オーディオ信号処理装置の構成を示すブロック図である。
【図４】オーディオ信号変換処理手順を示すフローチャートである。
【図５】本発明による学習装置の構成を示すブロック図である。
【図６】ディジタル信号処理装置の他の実施の形態を示すブロック図である。
【図７】学習装置の他の実施の形態を示すブロック図である。
【図８】他の実施の形態によるオーディオ信号変換処理手順を示すフローチャートである。
【符号の説明】
１０……オーディオ信号処理装置、１１、３１……極性判別部、１４、３４……クラス分類部、１５……予測係数メモリ、１６……予測演算部、３６……予測係数算出部、３７……生徒信号生成フィルタ。

Claims

ディジタルオーディオ信号を変換するディジタル信号処理装置において、
ゼロレベルを基準として上記ディジタルオーディオ信号の極性を判別する極性判別手段と、
上記極性判別結果に基づいて上記ディジタルオーディオ信号のクラスを分類するクラス分類手段と、
上記分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算手段と
を具えることを特徴とするディジタル信号処理装置。
上記極性判別手段は、上記ディジタルオーディオ信号を時間軸領域に分割し、各分割領域ごとにその極性を判別する
ことを特徴とする請求項１に記載のディジタル信号処理装置。
上記極性判別手段は、上記ディジタルオーディオ信号を少なくとも、正領域のみ、負領域のみ及びゼロクロスを含む領域の３つの領域に極性クラス分けする
ことを特徴とする請求項１に記載のディジタル信号処理装置。
上記予測演算手段は、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数を用いる
ことを特徴とする請求項１に記載のディジタル信号処理装置。
ディジタルオーディオ信号を変換するディジタル信号処理方法において、
ゼロレベルを基準として上記ディジタルオーディオ信号の極性を判別する極性判別ステップと、
上記極性判別結果に基づいて上記ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算ステップと
を具えることを特徴とするディジタル信号処理方法。
上記極性判別ステップでは、上記ディジタルオーディオ信号は時間軸領域に分割され、各分割領域ごとにその極性が判別される
ことを特徴とする請求項５に記載のディジタル信号処理方法。
上記極性判別ステップでは、上記ディジタルオーディオ信号は少なくとも、正領域のみ、負領域のみ及びゼロクロスを含む領域の３つの領域に極性クラス分けされる
ことを特徴とする請求項５に記載のディジタル信号処理方法。
上記予測演算ステップでは、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数が用いられる
ことを特徴とする請求項５に記載のディジタル信号処理方法。
ディジタルオーディオ信号を変換するディジタル信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習装置において、
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成手段と、
ゼロレベルを基準として上記生徒ディジタルオーディオ信号の極性を判別する極性判別手段と、
上記判別された極性に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類手段と、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出手段と
を具えることを特徴とする学習装置。
上記極性判別手段は、上記ディジタルオーディオ信号を時間軸領域に分割し、各分割領域ごとにその極性を判別する
ことを特徴とする請求項９に記載の学習装置。
上記極性判別手段は、上記ディジタルオーディオ信号を少なくとも、正領域のみ、負領域のみ及びゼロクロスを含む領域の３つの領域に極性クラス分けする
ことを特徴とする請求項９に記載の学習装置。
ディジタルオーディオ信号を変換するディジタル信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習方法において、
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成ステップと、
ゼロレベルを基準として上記生徒ディジタルオーディオ信号の極性を判別する極性判別ステップと、
上記判別された極性に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと
を具えることを特徴とする学習方法。
上記極性判別ステップでは、上記ディジタルオーディオ信号は時間軸領域に分割され、各分割領域ごとにその極性が判別される
ことを特徴とする請求項１２に記載の学習方法。
上記極性判別ステップでは、上記ディジタルオーディオ信号は少なくとも、正領域のみ、負領域のみ及びゼロクロスを含む領域の３つの領域に極性クラス分けされる
ことを特徴とする請求項１２に記載の学習方法。
ゼロレベルを基準としてディジタルオーディオ信号の極性を判別する極性判別ステップと、
上記極性判別結果に基づいて上記ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記分類されたクラスに対応した予測係数を用いて上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算ステップと
を実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成ステップと、
ゼロレベルを基準として上記生徒ディジタルオーディオ信号の極性を判別する極性判別ステップと、
上記判別された極性に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと
を実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。