JP4645867B2 - ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 - Google Patents

ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 Download PDF

Info

Publication number
JP4645867B2
JP4645867B2 JP2000238892A JP2000238892A JP4645867B2 JP 4645867 B2 JP4645867 B2 JP 4645867B2 JP 2000238892 A JP2000238892 A JP 2000238892A JP 2000238892 A JP2000238892 A JP 2000238892A JP 4645867 B2 JP4645867 B2 JP 4645867B2
Authority
JP
Japan
Prior art keywords
audio signal
digital audio
polarity
class
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000238892A
Other languages
English (en)
Other versions
JP2002049383A (ja
Inventor
哲二郎 近藤
勉 渡辺
正明 服部
裕人 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000238892A priority Critical patent/JP4645867B2/ja
Publication of JP2002049383A publication Critical patent/JP2002049383A/ja
Application granted granted Critical
Publication of JP4645867B2 publication Critical patent/JP4645867B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明はディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に関し、レートコンバータ又はPCM(Pulse Code Modulation) 復号装置等においてディジタル信号に対してデータの補間処理を行うディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に適用して好適なものである。
【0002】
【従来の技術】
従来、ディジタルオーディオ信号をディジタル/アナログコンバータに入力する前に、サンプリング周波数を元の値の数倍に変換するオーバサンプリング処理を行っている。これにより、ディジタル/アナログコンバータから出力されたディジタルオーディオ信号はアナログ・アンチ・エイリアス・フィルタの位相特性が可聴周波数高域で一定に保たれ、また、サンプリングに伴うディジタル系のイメージ雑音の影響が排除されるようになされている。
【0003】
かかるオーバサンプリング処理では、通常、線形一次(直線)補間方式のディジタルフィルタが用いられている。このようなディジタルフィルタは、サンプリングレートが変わったりデータが欠落した場合等に、複数の既存データの平均値を求めて直線的な補間データを生成するものである。
【0004】
【発明が解決しようとする課題】
ところが、オーバサンプリング処理後のディジタルオーディオ信号は、線形一次補間によって時間軸方向に対してデータ量が数倍に緻密になっているものの、オーバサンプリング処理後のディジタルオーディオ信号の周波数帯域は変換前とあまり変わらず、音質そのものは向上していない。さらに、補間されたデータは必ずしもA/D変換前のアナログオーディオ信号の波形に基づいて生成されたのではないため、波形再現性もほとんど向上していない。
【0005】
また、サンプリング周波数の異なるディジタルオーディオ信号をダビングする場合において、サンプリング・レート・コンバータを用いて周波数を変換しているが、かかる場合でも線形一次ディジタルフィルタによって直線的なデータの補間しか行うことができず、音質や波形再現性を向上することが困難であった。さらに、ディジタルオーディオ信号のデータサンプルが欠落した場合において同様である。
【0006】
本発明は以上の点を考慮してなされたもので、ディジタル信号の波形再現性を一段と向上し得るディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体を提案しようとするものである。
【0007】
【課題を解決するための手段】
かかる課題を解決するため本発明においては、ゼロレベルを基準としてディジタルオーディオ信号の極性に基づいてディジタルオーディオ信号のクラスを分類し、当該分類されたクラスに対応した予測方式でディジタルオーディオ信号を変換するようにしたことにより、音素に応じてクラス分類することができるので、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【0008】
【発明の実施の形態】
以下図面について、本発明の一実施の形態を詳述する。
【0009】
図1においてオーディオ信号処理装置10は、ディジタルオーディオ信号(以下これをオーディオデータと呼ぶ)のサンプリングレートを上げたり、オーディオデータを補間する際に、真値に近いオーディオデータをクラス分類適用処理によって生成するようになされている。因みに、ディジタルオーディオ信号とは、人や動物が発する声を表す音声信号、楽器が発する楽音を表す楽音信号、及びその他の音を表す信号を意味するものである。
【0010】
すなわち、オーディオ信号処理装置10において、極性判別部11は入力端子TINから供給された図2に示す入力オーディオデータD10を所定時間毎の領域(この実施の形態の場合、例えば6サンプル毎とする)に分割した後、当該分割された各時間領域の波形について、図2に示す極性判別方法によりその極性クラスを判別する。
【0011】
すなわち図2において、分割された領域AR1(カレントデータC1)のように切り出されたすべてのタップが正である場合、この極性クラスを CLASS0とし、分割された領域AR2(カレントデータC2)のように切り出された領域内にゼロクロスが存在すると共にカレントデータ(C2)が正である場合、この極性クラスを CLASS1とし、分割された領域AR4(カレントデータC4)のように切り出された切り出された領域内にゼロクロスが存在すると共にカレントデータ(C4)が負である場合、この極性クラスを CLASS2とし、分割された領域AR3(カレントデータC3)のように切り出されたすべてのタップが負である場合、この極性クラスを CLASS3とする。
【0012】
このように、オーディオデータD10の極性に基づく極性クラスを設定することにより、オーディオデータD10がゼロレベル近傍である場合の音素と大振幅部での音素とを正負両方の領域で一段と明確に区別することができる。
【0013】
極性判別部11は入力オーディオデータD10のこのときのカレントデータに対応して求められた極性判別結果( CLASS0、 CLASS1、 CLASS2又は CLASS3)を極性クラスデータD11としてクラス分類部14に供給する。
【0014】
また、クラス分類部抽出部12は入力端子TINから供給された入力オーディオデータD10を、極性判別出部11の場合と同様の時間領域(この実施の形態の場合例えば6サンプル)に分割することによりクラス分類しようとするオーディオ波形データD12を抽出し、これをクラス分類部14に供給する。
【0015】
クラス分類部14は、クラス分類抽出部12において切り出されたオーディオ波形データD12について、当該オーディオ波形データD12を圧縮して圧縮データパターンを生成するADRC(Adaptive Dynamic Range Coding) 回路部と、オーディオ波形データD12の属するクラスコードを発生するクラスコード発生回路部とを有する。
【0016】
ADRC回路部はオーディオ波形データD12に対して、例えば8ビットから2ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このADRC回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【0017】
具体的には、オーディオ波形上の6つの8ビットのデータ(オーディオ波形データ)をクラス分類しようとする場合、248という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部14ではその内部に設けられたADRC回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば6つのオーディオ波形データに対して1ビットの量子化を実行すると、6つのオーディオ波形データを6ビットで表すことができ、26 =64クラスに分類することができる。
【0018】
ここで、ADRC回路部は、切り出された領域内のオーディオ波形のダイナミックレンジをDR、ビット割り当をm、各オーディオ波形データのデータレベルをL、量子化コードをQとすると、次式、
【0019】
【数1】
Figure 0004645867
【0020】
に従って、領域内の最大値MAXと最小値MINとの間を指定されたビット長で均等に分割して量子化を行う。なお、(1)式において{ }は小数点以下の切り捨て処理を意味する。かくしてオーディオ波形上の6つの波形データが、それぞれ例えば8ビット(m=8)で構成されているとすると、これらはADRC回路部においてそれぞれが2ビットに圧縮される。
【0021】
このようにしてダイナミックレンジで正規化され圧縮されたオーディオ波形データをそれぞれqn (n=1〜6)とすると、クラス分類部14に設けられたクラスコード発生回路部は、圧縮されたオーディオ波形データqn に基づいて、次式、
【0022】
【数2】
Figure 0004645867
【0023】
に示す演算を実行することにより、そのブロック(q1 〜q6 )が属するクラスを示すクラスコードclass を算出すると共に、当該算出されたオーディオ波形データD12に基づくクラスコード classに対して、上述の極性クラス CLASSを統合した後、当該統合されたクラスコード class′を表すクラスコードデータD14を予測係数メモリ15に供給する。このクラスコードclass ′は、予測係数メモリ15から予測係数を読み出す際の読み出しアドレスを示す。因みに(2)式において、nは圧縮されたオーディオ波形データqn の数を表し、この実施の形態の場合n=6であり、またPはビット割り当てを表し、この実施の形態の場合P=2である。
【0024】
このようにして、クラス分類部14はクラス分類部抽出部12において入力オーディオデータD10から切り出されたオーディオ波形データD12そのもののクラスコード classと、オーディオ波形データD12の極性クラス CLASSとを統合したクラスコードデータ( class′)D14を生成し、これを予測係数メモリ15に供給する。因みに、オーディオ波形データD12そのもののクラスコード classと、オーディオ波形データD12の極性クラス CLASSとを統合する方法として、クラス分類部14は例えばオーディオ波形データD12そのもののクラスコード classに極性クラス CLASSを付加することにより、これらを統合することができる。
【0025】
予測係数メモリ15には、各クラスコードに対応する予測係数のセットがクラスコードに対応するアドレスにそれぞれ記憶されており、クラス分類部14から供給されるクラスコードデータD14に基づいて、当該クラスコードに対応するアドレスに記憶されている予測係数のセットw1 〜wn が読み出され、予測演算部16に供給される。
【0026】
予測演算部16は、予測演算部抽出部13において入力オーディオデータD10から時間軸領域で切り出された予測演算しようとするオーディオ波形データ(予測タップ)D13(x1 〜xn )と、予測係数w1 〜wn に対して、次式
【0027】
【数3】
Figure 0004645867
【0028】
に示す積和演算を行うことにより、予測結果y′を得る。この予測値y′が、音質が改善されたオーディオデータD16として予測演算部16から出力される。
【0029】
なお、オーディオ信号処理装置10の構成として図1について上述した機能ブロックを示したが、この機能ブロックを構成する具体的構成として、この実施の形態においては図3に示すコンピュータ構成の装置を用いる。すなわち、図3において、オーディオ信号処理装置10は、バスBUSを介してCPU21、ROM(Read Only Memory)22、予測係数メモリ15を構成するRAM(Random Access Memory)15、及び各回路部がそれぞれ接続された構成を有し、CPU11はROM22に格納されている種々のプログラムを実行することにより、図1について上述した各機能ブロック(極性判別部11、クラス分類部抽出部12、予測演算部抽出部13、クラス分類部14及び予測演算部16)として動作するようになされている。
【0030】
また、オーディオ信号処理装置10にはネットワークとの間で通信を行う通信インターフェース24、フロッピィディスクや光磁気ディスク等の外部記憶媒体から情報を読み出すリムーバブルドライブ28を有し、ネットワーク経由又は外部記憶媒体から図1について上述したクラス分類適用処理を行うための各プログラムをハードディスク装置25のハードディスクに読み込んみ、当該読み込まれたプログラムに従ってクラス分類適応処理を行うこともできる。
【0031】
ユーザは、キーボードやマウス等の入力手段26を介して種々のコマンドを入力することにより、CPU21に対して図1について上述したクラス分類処理を実行させる。この場合、オーディオ信号処理装置10はデータ入出力部27を介して音質を向上させようとするオーディオデータ(入力オーディオデータ)D10を入力し、当該入力オーディオデータD10に対してクラス分類適用処理を施した後、音質が向上したオーディオデータD16をデータ入出力部27を介して外部に出力し得るようになされている。
【0032】
因みに、図4はオーディオ信号処理装置10におけるクラス分類適応処理の処理手順を示し、オーディオ信号処理装置10はステップSP11から当該処理手順に入ると、続くステップSP12において入力オーディオデータD10の極性を極性判別部11において算出する。
【0033】
この算出された極性はオーティオ波形データD12のクラス分類を一段と確実にするためのもであり、オーディオ信号処理装置10は、ステップSP13においてクラス分類部14によりオーディオ波形データD12及び極性クラスD11に基づいてオーディオ波形データD12をクラス分類する。そしてオーディオ信号処理装置10は、クラス分類の結果得られたクラスコードを用いて予測係数メモリ15から予測係数を読み出す。この予測係数は予め学習によりクラス毎に対応して格納されており、オーディオ信号処理装置10はクラスコードに対応した予測係数を読み出すことにより、このときのオーディオ波形の特徴に合致した予測係数を用いることができる。
【0034】
予測係数メモリ15から読み出された予測係数は、ステップSP14において予測演算部16の予測演算に用いられる。これにより、入力オーディオデータD10はその極性に応じた予測演算により、所望とするオーディオデータD16に変換される。かくして入力オーディオデータD10はその音質が改善されたオーディオデータD16に変換され、オーディオ信号処理装置10はステップSP15に移って当該処理手順を終了する。
【0035】
次に、図1について上述した予測係数メモリ15に記憶するクラス毎の予測係数のセットを予め学習によって得るための学習回路について説明する。
【0036】
図5において、学習回路30は、高音質の教師オーディオデータD30を生徒信号生成フィルタ37に受ける。生徒信号生成フィルタ37は、間引き率設定信号D39により設定された間引き率で教師オーディオデータD30を所定時間ごとに所定サンプル間引くようになされている。
【0037】
この場合、生徒信号生成フィルタ37における間引き率によって、生成される予測係数が異なり、これに応じて上述のオーディオ信号処理装置10で再現されるオーディオデータも異なる。例えば、上述のオーディオ信号処理装置10においてサンプリング周波数を高くすることでオーディオデータの音質を向上しようとする場合、生徒信号生成フィルタ37ではサンプリング周波数を減らす間引き処理を行う。また、これに対して上述のオーディオ信号処理装置10において入力オーディオデータD10の欠落したデータサンプルを補うことで音質の向上を図る場合には、これに応じて、生徒信号生成フィルタ37ではデータサンプルを欠落させる間引き処理を行うようになされている。
【0038】
かくして、生徒信号生成フィルタ37は教師オーディオデータ30から所定の間引き処理により生徒オーディオデータD37を生成し、これを極性判別部31、クラス分類部抽出部32及び予測演算部抽出部33にそれぞれ供給する。
【0039】
極性判別部31は生徒信号生成フィルタ37から供給された生徒オーディオデータD37を所定時間毎の領域(この実施の形態の場合、例えば6サンプル毎とする)に分割した後、当該分割された各時間領域の波形について、その極性クラスを図2について上述したように分類する。
【0040】
そして極性判別部31は生徒オーディオデータD37のこのとき分割された時間領域の極性判別結果を生徒オーディオデータD37の極性クラスデータD31としてクラス分類部34に供給する。
【0041】
また、クラス分類部抽出部32は生徒信号生成フィルタ37から供給された生徒オーディオデータD37を、極性判別部31の場合と同様の時間領域(この実施の形態の場合例えば6サンプル)に分割することによりクラス分類しようとするオーディオ波形データD32を抽出し、これをクラス分類部34に供給する。
【0042】
クラス分類部34は、クラス分類抽出部32において切り出されたオーディオ波形データD32について、当該オーディオ波形データD32を圧縮して圧縮データパターンを生成するADRC(Adaptive Dynamic Range Coding) 回路部と、オーディオ波形データD32の属するクラスコードを発生するクラスコード発生回路部とを有する。
【0043】
ADRC回路部はオーディオ波形データD32に対して、例えば8ビットから2ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このADRC回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【0044】
具体的には、オーディオ波形上の6つの8ビットのデータ(オーディオ波形データ)をクラス分類しようとする場合、248という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部14ではその内部に設けられたADRC回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば6つのオーディオ波形データに対して1ビットの量子化を実行すると、6つのオーディオ波形データを6ビットで表すことができ、26 =64クラスに分類することができる。
【0045】
ここで、ADRC回路部は、切り出された領域内のオーディオ波形のダイナミックレンジをDR、ビット割り当をm、各オーディオ波形データのデータレベルをL、量子化コードをQとして、上述の(1)式と同様の演算により、領域内の最大値MAXと最小値MINとの間を指定されたビット長で均等に分割して量子化を行う。かくしてオーディオ波形上の6つの波形データが、それぞれ例えば8ビット(m=8)で構成されているとすると、これらはADRC回路部においてそれぞれが2ビットに圧縮される。
【0046】
このようにしてオーディオ波形のダイナミックレンジで正規化し圧縮されたオーディオ波形データをそれぞれqn (n=1〜6)とすると、クラス分類部34に設けられたクラスコード発生回路部は、圧縮されたオーディオ波形データqn に基づいて、上述の(2)式と同様の演算を実行することにより、そのブロック(q1 〜q6 )が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass と極性判別部31により算出された極性クラス( CLASS0、 CLASS1、 CLASS2又は CLASS3)とを統合した後、当該統合されてなるクラスコード class′を表すクラスコードデータD34を予測係数算出部36に供給する。因みに(2)式において、nは圧縮されたオーディオ波形データqn の数を表し、この実施の形態の場合n=6であり、またPはビット割り当てを表し、この実施の形態の場合P=2である。
【0047】
このようにして、クラス分類部34はクラスコードデータD34を生成し、これを予測係数算出部36に供給する。また、予測係数算出部36には、クラスコードデータD34に対応した時間軸領域のオーディオ波形データD33(x1 、x2 、……、xn )が予測演算部抽出部33において切り出されて供給される。
【0048】
予測係数算出部36は、クラス分類部34から供給されたクラスコードclass ′と、各クラスコードclass 毎に切り出されたオーディオ波形データD33と、入力端TINから供給された高音質の教師オーディオデータD30とを用いて、正規方程式を立てる。
【0049】
すなわち、生徒オーディオデータD37のnサンプルのレベルをそれぞれx1 、x2 、……、xn として、それぞれにpビットのADRCを行った結果の量子化データをq1 、……、qn とする。このとき、この領域のクラスコードclass ′を上述の(2)式のように定義する。そして、上述のように生徒オーディオデータD37のレベルをそれぞれ、x1 、x2 、……、xn とし、高音質の教師オーディオデータD30のレベルをyとしたとき、クラスコード毎に、予測係数w1 、w2 、……、wn によるnタップの線形推定式を設定する。これを次式、
【0050】
【数4】
Figure 0004645867
【0051】
とする。学習前は、wn が未定係数である。
【0052】
学習回路30では、クラスコード毎に、複数のオーディオデータに対して学習を行う。データサンプル数がMの場合、上述の(4)式に従って、次式、
【0053】
【数5】
Figure 0004645867
【0054】
が設定される。但しk=1、2、……Mである。
【0055】
M>nの場合、予測係数w1 、……wn は一意的に決まらないので、誤差ベクトルeの要素を次式、
【0056】
【数6】
Figure 0004645867
【0057】
によって定義し(但し、k=1、2、……、M)、次式、
【0058】
【数7】
Figure 0004645867
【0059】
を最小にする予測係数を求める。いわゆる、最小自乗法による解法である。
【0060】
ここで、(7)式によるwn の偏微分係数を求める。この場合、次式、
【0061】
【数8】
Figure 0004645867
【0062】
を「0」にするように、各wn (n=1〜6)を求めれば良い。
【0063】
そして、次式、
【0064】
【数9】
Figure 0004645867
【0065】
【数10】
Figure 0004645867
【0066】
のように、Xij、Yi を定義すると、(8)式は行列を用いて次式、
【0067】
【数11】
Figure 0004645867
【0068】
として表される。
【0069】
この方程式は、一般に正規方程式と呼ばれている。なお、ここではn=6である。
【0070】
全ての学習用データ(教師オーディオデータD30、クラスコードclass ′、オーディオ波形データD33)の入力が完了した後、予測係数算出部36は各クラスコードclass ′に上述の(11)式に示した正規方程式を立てて、この正規方程式を掃き出し法等の一般的な行列解法を用いて、各Wn について解き、各クラスコード毎に、予測係数を算出する。予測係数算出部36は、算出された各予測係数(D36)を予測係数メモリ15に書き込む。
【0071】
このような学習を行った結果、予測係数メモリ15には、量子化データq1 、……、q6 で規定されるパターン毎に、高音質のオーディオデータyを推定するための予測係数が、各クラスコード毎に格納される。この予測係数メモリ15は、図1について上述したオーディオ信号処理装置10において用いられる。かかる処理により、線形推定式に従って通常のオーディオデータから高音質のオーディオデータを作成するための予測係数の学習が終了する。
【0072】
このように、学習回路30は、オーディオ信号処理装置10において補間処理を行う程度を考慮して、生徒信号生成フィルタ37で高音質の教師オーディオデータの間引き処理を行うことにより、オーディオ信号処理装置10における補間処理のための予測係数を生成することができる。
【0073】
以上の構成において、オーディオ信号処理装置10は、クラス分類部14のADRC処理においてオーディオ波形をそのダイナミックレンジで正規化することでオーディオ波形そのもののクラスコード classを得る。この場合、オーディオ波形のゼロレベル近傍及び大振幅部では音素が異なっている場合が多く、単にダイナミックレンジで正規化した結果でクラス分類を行うと、元々異なる音素であっても同一クラスと見なされてしまうことがある。従って、クラス分類部14では、オーディオ波形そのもののクラスコード classに、オーディオ波形の極性クラス CLASSを統合してクラスコード class′を算出し、これをクラス分類結果として予測演算に用いることにより、オーディオ波形そのものから得られたクラスコード classが同一クラスとなった場合でも、オーディオ波形の極性クラスに応じて確実にクラス分類することができる。
【0074】
例えば、極性クラスが CLASS0又は CLASS3である場合、このことは切り出されたオーディオ波形データの値が全て正又は負であること、すなわち比較的大振幅の波形部分であることを表しており、また、極性クラスが CLASS1又は CLASS2である場合、このことは切り出されたオーディオ波形がゼロクロス部と正又は負とを含む波形であること、すなわち比較的ゼロレベル近傍の波形部分であることを表しており、クラス分類部14はかかる極性クラスをオーディオ波形データそのもののクラスコード classに統合してクラス分類を行うことにより、異なる音素を異なるクラスコードとして分類することができる。
【0075】
以上の構成によれば、入力オーディオデータD10の極性クラスを用いて入力オーディオデータD10をクラス分類し、当該クラス分類された結果に基づく予測係数を用いて予測演算するようにしたことにより、入力オーディオデータD10を一段と高音質のオーディオデータD16に変換することができる。
【0076】
なお上述の実施の形態においては、オーディオ信号処理装置10及び学習装置30において、クラス分類部抽出部12、32及び予測演算部抽出部13、33により入力オーディオデータD10、D37を常に一定の範囲毎に切り出す場合について述べたが、本発明はこれに限らず、例えば図1及び図5との対応部分に同一符号を付して示す図6及び図7に示すように、極性判別部11、31において算出された極性クラスに基づいて抽出制御信号CONT11、CONT31を可変クラス分類部抽出部12′、可変予測演算部抽出部13′及び可変クラス分類部抽出部32′、可変予測演算部抽出部33′に供給することにより入力オーディオデータD10、D37の切り出し範囲(タップ)を制御するようにしても良い。
【0077】
この場合、極性判別部11、31は、極性クラス CLASS0、 CLASS1、 CLASS2及び CLASS3の頻度に基づいて切り出し範囲(タップの切り出し長)を制御することにより、タップの切り出し長を長くし過ぎることによる正極性のみ( CLASS0)又は負極性のみ( CLASS3)への分類頻度の低下を防止することができる。
【0078】
この場合、オーディオデータの変換処理手順は図4との対応部分に同一符号を付して示す図8に示すように、オーディオ波形の極性を判別するステップSP12の次に、当該判別された極性に基づいて可変クラス分類部抽出部12′、32′及び可変予測演算部抽出部13′、33′におけるタップ抽出領域を制御する処理ステップSP21を挿入するようにすれば良い。
【0079】
また上述の実施の形態においては、極性クラスとして4つの極性クラス CLASS0、 CLASS1、 CLASS2及び CLASS3を設ける場合について述べたが、本発明はこれに限らず、全て正の領域、全て負の領域、ゼロクロスを含む領域の3つの極性クラスに分類するようにしても良い。
【0080】
また上述の実施の形態においては、予測方式として線形一次による手法を用いる場合について述べたが、本発明はこれに限らず、要は学習した結果を用いるようにすれば良く、例えば多次関数による手法等の種々の予測方式を適用することができる。
【0081】
また上述の実施の形態においては、クラス分類部14においてADRCにより圧縮データパターンを生成する場合について述べたが、本発明はこれに限らず、可逆符号化(DPCM:Differrential Pulse Code Modulation) 又はベクトル量子化(VQ:Vector Quantize) 等の圧縮手段を用いるようにしても良い。
【0082】
また上述の実施の形態においては、学習回路30の生徒信号生成フィルタ37において教師オーディオデータD30から所定サンプル数を間引く場合について述べたが、本発明はこれに限らず、例えばビット数を削減する等、他の種々の方法を適用することができる。
【0083】
【発明の効果】
かかる課題を解決するため本発明においては、ゼロレベルを基準としてディジタルオーディオ信号の極性に基づいてディジタルオーディオ信号のクラスを分類し、当該分類されたクラスに対応した予測方式でディジタルオーディオ信号を変換するようにしたことにより、音素に応じてクラス分類することができるので、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【図面の簡単な説明】
【図1】本発明によるディジタル信号処理装置の構成を示すブロック図である。
【図2】極性判別の説明に供する信号波形図である。
【図3】オーディオ信号処理装置の構成を示すブロック図である。
【図4】オーディオ信号変換処理手順を示すフローチャートである。
【図5】本発明による学習装置の構成を示すブロック図である。
【図6】ディジタル信号処理装置の他の実施の形態を示すブロック図である。
【図7】学習装置の他の実施の形態を示すブロック図である。
【図8】他の実施の形態によるオーディオ信号変換処理手順を示すフローチャートである。
【符号の説明】
10……オーディオ信号処理装置、11、31……極性判別部、14、34……クラス分類部、15……予測係数メモリ、16……予測演算部、36……予測係数算出部、37……生徒信号生成フィルタ。

Claims (16)

  1. ディジタルオーディオ信号を変換するディジタル信号処理装置において、
    ゼロレベルを基準として上記ディジタルオーディオ信号の極性を判別する極性判別手段と、
    上記極性判別結果に基づいて上記ディジタルオーディオ信号のクラスを分類するクラス分類手段と、
    上記分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算手段と
    を具えることを特徴とするディジタル信号処理装置。
  2. 上記極性判別手段は、上記ディジタルオーディオ信号を時間軸領域に分割し、各分割領域ごとにその極性を判別する
    ことを特徴とする請求項1に記載のディジタル信号処理装置。
  3. 上記極性判別手段は、上記ディジタルオーディオ信号を少なくとも、正領域のみ、負領域のみ及びゼロクロスを含む領域の3つの領域に極性クラス分けする
    ことを特徴とする請求項1に記載のディジタル信号処理装置。
  4. 上記予測演算手段は、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数を用いる
    ことを特徴とする請求項1に記載のディジタル信号処理装置。
  5. ディジタルオーディオ信号を変換するディジタル信号処理方法において、
    ゼロレベルを基準として上記ディジタルオーディオ信号の極性を判別する極性判別ステップと、
    上記極性判別結果に基づいて上記ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
    上記分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算ステップと
    を具えることを特徴とするディジタル信号処理方法。
  6. 上記極性判別ステップでは、上記ディジタルオーディオ信号は時間軸領域に分割され、各分割領域ごとにその極性が判別される
    ことを特徴とする請求項5に記載のディジタル信号処理方法。
  7. 上記極性判別ステップでは、上記ディジタルオーディオ信号は少なくとも、正領域のみ、負領域のみ及びゼロクロスを含む領域の3つの領域に極性クラス分けされる
    ことを特徴とする請求項5に記載のディジタル信号処理方法。
  8. 上記予測演算ステップでは、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数が用いられる
    ことを特徴とする請求項5に記載のディジタル信号処理方法。
  9. ディジタルオーディオ信号を変換するディジタル信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習装置において、
    所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成手段と、
    ゼロレベルを基準として上記生徒ディジタルオーディオ信号の極性を判別する極性判別手段と、
    上記判別された極性に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類手段と、
    上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出手段と
    を具えることを特徴とする学習装置。
  10. 上記極性判別手段は、上記ディジタルオーディオ信号を時間軸領域に分割し、各分割領域ごとにその極性を判別する
    ことを特徴とする請求項9に記載の学習装置。
  11. 上記極性判別手段は、上記ディジタルオーディオ信号を少なくとも、正領域のみ、負領域のみ及びゼロクロスを含む領域の3つの領域に極性クラス分けする
    ことを特徴とする請求項9に記載の学習装置。
  12. ディジタルオーディオ信号を変換するディジタル信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習方法において、
    所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成ステップと、
    ゼロレベルを基準として上記生徒ディジタルオーディオ信号の極性を判別する極性判別ステップと、
    上記判別された極性に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
    上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと
    を具えることを特徴とする学習方法。
  13. 上記極性判別ステップでは、上記ディジタルオーディオ信号は時間軸領域に分割され、各分割領域ごとにその極性が判別される
    ことを特徴とする請求項12に記載の学習方法。
  14. 上記極性判別ステップでは、上記ディジタルオーディオ信号は少なくとも、正領域のみ、負領域のみ及びゼロクロスを含む領域の3つの領域に極性クラス分けされる
    ことを特徴とする請求項12に記載の学習方法。
  15. ゼロレベルを基準としてディジタルオーディオ信号の極性を判別する極性判別ステップと、
    上記極性判別結果に基づいて上記ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
    上記分類されたクラスに対応した予測係数を用いて上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算ステップと
    実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
  16. 所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成ステップと、
    ゼロレベルを基準として上記生徒ディジタルオーディオ信号の極性を判別する極性判別ステップと、
    上記判別された極性に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
    上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと
    実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
JP2000238892A 2000-08-02 2000-08-02 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 Expired - Fee Related JP4645867B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000238892A JP4645867B2 (ja) 2000-08-02 2000-08-02 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000238892A JP4645867B2 (ja) 2000-08-02 2000-08-02 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Publications (2)

Publication Number Publication Date
JP2002049383A JP2002049383A (ja) 2002-02-15
JP4645867B2 true JP4645867B2 (ja) 2011-03-09

Family

ID=18730523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000238892A Expired - Fee Related JP4645867B2 (ja) 2000-08-02 2000-08-02 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Country Status (1)

Country Link
JP (1) JP4645867B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4596196B2 (ja) 2000-08-02 2010-12-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4538705B2 (ja) 2000-08-02 2010-09-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
TWI237546B (en) 2003-01-30 2005-08-01 Osram Opto Semiconductors Gmbh Semiconductor-component sending and/or receiving electromagnetic radiation and housing-basebody for such a component
EP1751806B1 (de) 2004-05-31 2019-09-11 OSRAM Opto Semiconductors GmbH Optoelektronisches halbleiterbauelement und gehäuse-grundkörper für ein derartiges bauelement

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104793A (ja) * 1993-09-30 1995-04-21 Sony Corp 音声信号の符号化装置及び復号化装置
JPH0884335A (ja) * 1994-09-10 1996-03-26 Sony Corp 画像信号処理方法及び画像信号伝送装置
JPH08149465A (ja) * 1994-11-17 1996-06-07 Sony Corp 帯域圧縮信号復元装置
JPH08265711A (ja) * 1995-03-22 1996-10-11 Sony Corp 信号変換装置及び信号変換方法
JPH0922298A (ja) * 1995-01-12 1997-01-21 Blue Chip Music Gmbh 音高認識方法及び装置
JPH10187186A (ja) * 1996-12-26 1998-07-14 Sony Corp 認識装置および認識方法、並びに学習装置および学習方法
JPH10313251A (ja) * 1997-05-12 1998-11-24 Sony Corp オーディオ信号変換装置及び方法、予測係数生成装置及び方法、予測係数格納媒体
JP2000200349A (ja) * 1998-10-29 2000-07-18 Sony Corp 画像情報変換装置および画像情報変換方法、学習装置および学習方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104793A (ja) * 1993-09-30 1995-04-21 Sony Corp 音声信号の符号化装置及び復号化装置
JPH0884335A (ja) * 1994-09-10 1996-03-26 Sony Corp 画像信号処理方法及び画像信号伝送装置
JPH08149465A (ja) * 1994-11-17 1996-06-07 Sony Corp 帯域圧縮信号復元装置
JPH0922298A (ja) * 1995-01-12 1997-01-21 Blue Chip Music Gmbh 音高認識方法及び装置
JPH08265711A (ja) * 1995-03-22 1996-10-11 Sony Corp 信号変換装置及び信号変換方法
JPH10187186A (ja) * 1996-12-26 1998-07-14 Sony Corp 認識装置および認識方法、並びに学習装置および学習方法
JPH10313251A (ja) * 1997-05-12 1998-11-24 Sony Corp オーディオ信号変換装置及び方法、予測係数生成装置及び方法、予測係数格納媒体
JP2000200349A (ja) * 1998-10-29 2000-07-18 Sony Corp 画像情報変換装置および画像情報変換方法、学習装置および学習方法

Also Published As

Publication number Publication date
JP2002049383A (ja) 2002-02-15

Similar Documents

Publication Publication Date Title
WO1993019459A1 (en) High-efficiency encoding method
JPH10307599A (ja) スプラインを使用する波形補間音声コーディング
US5991725A (en) System and method for enhanced speech quality in voice storage and retrieval systems
JP3478209B2 (ja) 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体
JPH10319996A (ja) 雑音の効率的分解と波形補間における周期信号波形
US5721543A (en) System and method for modeling discrete data sequences
JP4596196B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JPH0644712B2 (ja) 信号処理方式
JP4645867B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4596197B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4645866B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4645869B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
US6990475B2 (en) Digital signal processing method, learning method, apparatus thereof and program storage medium
JPH07199997A (ja) 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法
US20030108108A1 (en) Decoder, decoding method, and program distribution medium therefor
JP4645868B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4538704B2 (ja) ディジタル信号処理方法及びディジタル信号処理装置並びにプログラム格納媒体
KR101862352B1 (ko) 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법
JP3417362B2 (ja) 音声信号復号方法及び音声信号符号化復号方法
CN118016080B (zh) 一种音频处理方法、音频处理器及相关装置
JP2003323200A (ja) 音声符号化のための線形予測係数の勾配降下最適化
JP2000132195A (ja) 信号符号化装置及び方法
WO1997016821A1 (en) Method and system for compressing a speech signal using nonlinear prediction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101124

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees