以下、添付された図面を参照しつつ、本発明の概念によるオーディオ信号の符号化及び復号化方法並びにその装置について詳細に説明する。
図1は、本発明の概念によるオーディオ信号の符号化装置に係わる一実施形態を図示したブロック図であり、前記オーディオ信号の符号化装置は、第1変換部100、第2変換部105、周波数成分検出部110、周波数成分符号化部115、エネルギー値計算部120、エネルギー値符号化部125、トーナリティ符号化部130及び多重化部135を含むことができる。
第1変換部100は、入力端子INを介して入力されたオーディオ信号を、既設定の第1変換方式で、時間ドメインから周波数ドメインに変換できる。ここで、オーディオ信号の例として、音声(speech)信号または音楽(music)信号などがある。
第2変換部105は、心理音響(psycho acoustic)モデルを適用するために、第1変換方式以外の他の既設定の方式である第2変換方式でも、入力端子INを介して入力されたオーディオ信号を、時間ドメインから周波数ドメインに変換できる。
第1変換部100で変換された信号は、オーディオ信号の符号化に利用され、第2変換部105で変換された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。ここで、心理音響モデルは、ヒューマン聴覚システムの遮蔽作用に係わる数学的モデルをいう。
例えば、第1変換部100は、オーディオ信号を、第1変換方式に該当するMDCT(modified discrete cosine transform)によって周波数ドメインに変換し、実数部で表現し、第2変換部105は、オーディオ信号を、第2変換方式に該当するMDST(modified discrete sine transform)によって周波数ドメインに変換し、虚数部で表現できる。ここで、MDCTによって変換されて実数部で表現された信号は、オーディオ信号の符号化に使われ、MDSTによって変換されて虚数部で表現された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。これによって、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFT(discrete Fourier transform)を遂行した後、MDCTの係数を量子化することによって、発生するミスマッチ(miss match)を解決できる。
周波数成分検出部110は、第1変換部100で変換された信号から、既設定の基準によって、第2変換部105で変換された信号を利用し、重要な周波数成分であると判断される周波数成分を検出できる。周波数成分検出部110で、重要な周波数成分を検出するにおいて、次のような方法がある。第一に、SMR(signal to masking ratio)値を計算し、マスキング閾値より大きい信号を重要な周波数成分として決定できる。第二に、所定の重み付けを考慮してスペクトルピークを抽出し、重要な周波数成分を決定できる。第三に、各サブバンド別にSNR(signal to noise ratio)値を計算し、SNR値が低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を、重要周波数成分として決定できる。前述の三種の方法は、それぞれ実施できるが、少なくとも一つ以上の方法を結合して組み合わせることによって、実施することができ、前述の方法は単なる例に過ぎず、前述の方法に限定して実施しなければならないというものではない。
周波数成分符号化部115は、周波数成分検出部110で検出された周波数成分と、その周波数成分の位置を示す情報とを符号化できる。
エネルギー値計算部120は、第1変換部100で変換された信号の各バンドでの信号に係わるエネルギー値を計算できる。ここでバンドの例として、QMF(quadrature mirror filter)の場合、バンドは、1個のサブバンド(subband)または1個のスケールファクタ・バンド(scale factor band)になりうる。
エネルギー値符号化部125は、エネルギー値計算部120で計算された各バンドのエネルギー値と、そのバンドの位置を示す情報とを符号化できる。
トーナリティ符号化部130は、周波数成分検出部110で検出された周波数成分が含まれた各バンドでの信号の各トーナリティ(tonality)を計算して符号化できる。しかし本発明の概念では、トーナリティ符号化部130を必ず含めて実施しなければならないものではない。ただし、復号化器(図示せず)で周波数成分が作られたバンドに信号を生成するにおいて、単数の信号を利用して生成するのではなく、複数の信号を利用して単数の信号を生成する場合に、トーナリティ符号化部130が必要でありうる。例えば、復号化器(図示せず)で、任意に生成された信号とパッチ(patch)された信号とをいずれも利用し、周波数成分が含まれたバンドに作られる信号を生成する場合に必要である。
多重化部135は、周波数成分符号化部115で符号化された周波数成分、並びにその周波数成分の位置を示す情報、エネルギー値符号化部125で符号化された各バンドのエネルギー値、並びに各バンドの位置を示す情報を含んで多重化し、出力端子OUTを介して、多重化されたビットストリームを出力できる。所定の場合、多重化部135は、トーナリティ符号化部130で符号化されたトーナリティも含んで多重化できる。
図2は、本発明の概念によるオーディオ信号の復号化装置の一実施形態を図示したブロック図であり、前記オーディオ信号の復号化装置は、逆多重化部200、周波数成分復号化部205、エネルギー値復号化部210、信号生成部215、信号調節部220、信号合成部225及び逆変換部230を含むことができる。
逆多重化部200は、符号化端から入力端子INを介して、ビットストリームを入力されて逆多重化できる。例えば、周波数成分、並びにその周波数成分の位置を示す情報、各バンドのエネルギー値、符号化器(図示せず)でエネルギー値が符号化されたバンドの位置及びトーナリティなどを、逆多重化部200で逆多重化できる。
周波数成分復号化部205は、符号化器(図示せず)で既設定の基準によって、重要な周波数成分であると判断されて符号化された所定の周波数成分を復号化できる。
エネルギー値復号化部210は、各バンドでの信号のエネルギー値を復号化できる。
トーナリティ復号化部213は、周波数成分復号化部205で復号化された周波数成分が含まれたバンドでの信号に係わるトーナリティを復号化できる。しかし本発明の概念では、トーナリティ復号化部213を必ず含めて実施しなければならないものではない。ただし、信号生成部215で単数の信号を利用して生成するのではなく、複数の信号を利用して単数の信号を生成する場合に、トーナリティ復号化部213が必要でありうる。例えば、信号生成部215で、任意に生成された信号とパッチされた信号とをいずれも利用し、周波数成分復号化部205で復号化された周波数成分が含まれたバンドに作られる信号を生成する場合に必要でありうる。もし本発明の概念で、トーナリティ復号化部213を含んで実施する場合、信号調節部220は、トーナリティ復号化部213で復号化されたトーナリティまで考慮し、信号生成部215で生成された信号を調節できる。
信号生成部215は、エネルギー値復号化部210で復号化された各バンドのエネルギー値を有する信号を各バンドに生成しうる。
ここで、信号生成部215で、各バンドに信号を生成する方法として、次に述べる例がある。第一に、信号生成部215は、任意にノイズ信号を生成しうる。例えば、ランダムノイズ信号(random noise signal)がある。第二に、信号生成部215は、所定のバンドでの信号が、既設定の周波数より大きい領域に該当する高周波数信号であり、既設定の周波数より小さい領域に該当する低周波数信号が、すでに復号化されて利用されうるならば、低周波数信号をコピーして、信号を生成しうる。例えば、低周波数信号をパッチしたりフォールディング(folding)して、信号を生成しうる。
信号調節部220は、信号生成部215で生成された信号のうち、周波数成分復号化部205で復号化された周波数成分が含まれたバンドでの信号を調節できる。ここで、信号調節部220は、エネルギー値復号化部210で復号化された各バンドのエネルギー値を基に、周波数成分復号化部205で復号化された周波数成分のエネルギー値を考慮し、信号生成部220で生成された信号のエネルギーが調節されるように、信号生成部220で生成された信号を調節できる。信号調節部220に係わるさらに詳細な一実施形態は、図13の説明と共に後述する。
しかし、信号調節部220は、信号生成部215で生成された信号のうち、周波数成分復号化部205で復号化された周波数成分が含まれていないバンドでの信号を調節しないこともある。
信号合成部225は、復号化された周波数成分が含まれたバンドに係わり、周波数成分復号化部205で復号化された周波数成分と、信号調節部220で調節された信号とを合成して作り、復号化された周波数成分が含まれていないバンドに係わり、信号生成部215で生成された信号で作ることができる。
逆変換部230は、図1の第1変換部100で遂行する変換の逆過程であり、信号合成部225で作られた信号を、既設定の第1逆変換方式で、周波数ドメインから時間ドメインに変換し、出力端子OUTを介して出力できる。第1逆変換方式の例として、IMDCT(inverse modified discrete cosine transform)がある。
図3は、本発明の概念によるオーディオ信号の符号化装置に係わる一実施形態を図示したブロック図であり、前記オーディオ信号の符号化装置は、第1変換部300、第2変換部305、周波数成分検出部310、周波数成分符号化部315、包絡線抽出部320、包絡線符号化部325及び多重化部330を含むことができる。
第1変換部300は、入力端子INを介して入力されたオーディオ信号を、既設定の第1変換方式で、時間ドメインから周波数ドメインに変換できる。ここで、オーディオ信号の例として、音声信号または音楽信号などがある。
第2変換部305は、心理音響モデルを適用するために、第1変換方式以外の他の既設定の方式である第2変換方式でも、入力端子INを介して入力されたオーディオ信号を、時間ドメインから周波数ドメインに変換できる。
第1変換部300で変換された信号は、オーディオ信号の符号化に利用され、第2変換部305で変換された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。ここで、心理音響モデルは、ヒューマン聴覚システムの遮蔽作用に係わる数学的モデルをいう。
例えば、第1変換部300は、オーディオ信号を、第1変換方式に該当するMDCTによって周波数ドメインに変換して実数部で表現し、第2変換部305は、オーディオ信号を、第2変換方式に該当するMDSTによって周波数ドメインに変換して虚数部で表現できる。ここで、MDCTによって変換されて実数部で表現された信号は、オーディオ信号の符号化に使われ、MDSTによって変換されて虚数部で表現された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。これによって、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを遂行した後、MDCTの係数を量子化することによって、発生するミスマッチを解決できる。
周波数成分検出部310は、第1変換部300で変換された信号から、既設定の基準によって、第2変換部305で変換された信号を利用し、重要な周波数成分であると判断される周波数成分を検出できる。周波数成分検出部310で重要な周波数成分を検出するにおいて、次のような方法がある。第一に、SMR値を計算し、マスキング閾値より大きい信号を重要な周波数成分として決定できる。第二に、所定の重み付けを考慮してスペクトルピークを抽出し、重要な周波数成分を決定できる。第三に、各サブバンド別にSNR値を計算し、SNR値が低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を、重要周波数成分として決定できる。前述の三種の方法は、それぞれ実施できるが、少なくとも一つ以上の方法を結合して組み合わせることによって、実施することができ、前述の方法は単なる例に過ぎず、前述の方法に限定して実施しなければならないというものではない。
周波数成分符号化部315は、周波数成分検出部310で検出された周波数成分と、その周波数成分の位置を示す情報とを符号化できる。包絡線抽出部320は、第1変換部300で変換された信号の包絡線を抽出できる。包絡線符号化部325は、包絡線抽出部320で抽出した包絡線を符号化できる。
多重化部330は、周波数成分符号化部315で符号化された周波数成分、並びに周波数成分の位置を示す情報、包絡線符号化部325で符号化された包絡線を含んで多重化でき、出力端子OUTを介して、多重化されたビットストリームを出力できる。
図4は、本発明の概念によるオーディオ信号の復号化装置の一実施形態を図示したブロック図であり、前記オーディオ信号の復号化装置は、逆多重化部400、周波数成分復号化部405、包絡線復号化部410、エネルギー計算部415、包絡線調節部420、信号合成部425及び逆変換部430を含むことができる。
逆多重化部400は、符号化端から入力端子INを介して、ビットストリームを入力されて逆多重化できる。例えば、周波数成分、並びにその周波数成分の位置を示す情報、符号化器(図示せず)で符号化された包絡線などを逆多重化部400で逆多重化できる。
周波数成分復号化部405は、符号化器(図示せず)で既設定の基準によって、重要な周波数成分であると判断されて符号化された所定の周波数成分を復号化できる。
包絡線復号化部410は、符号化器(図示せず)で符号化された包絡線を復号化できる。
エネルギー計算部415は、周波数成分復号化部405で復号化された各周波数成分のエネルギー値を計算できる。
包絡線調節部420は、包絡線復号化部410で復号化された包絡線のうち、周波数成分復号化部405で復号化された周波数成分が含まれたバンドでの信号を調節できる。ここで、包絡線調節部420は、包絡線復号化部410で復号化された各バンドに作られた包絡線のエネルギー値が、周波数成分復号化部405で復号化された周波数成分が含まれた各バンドに作られた包絡線のエネルギー値から、当該バンドに含まれた周波数成分のエネルギー値を減算した値になるように、当該バンドに作られた包絡線を調節できる。
しかし、包絡線調節部420は、包絡線復号化部415で復号化された包絡線のうち、周波数成分復号化部405で復号化された周波数成分が含まれていないバンドでの信号を調節しないこともある。
信号合成部425は、周波数成分復号化部405で復号化された周波数成分が含まれたバンドに対し、周波数成分復号化部405で復号化された周波数成分と、包絡線調節部420で調節された包絡線とを合成して作り、周波数成分復号化部405で復号化された周波数成分が含まれていないバンドに対し、包絡線復号化部410で復号化された信号で作ることができる。
逆変換部430は、図3の第1変換部300で遂行する変換の逆過程であり、信号合成部425で作られた信号を、既設定の第1逆変換方式で、周波数ドメインから時間ドメインに変換し、出力端子OUTを介して出力できる。第1逆変換方式の例として、IMDCTがある。
図5は、本発明の概念によるオーディオ信号の符号化装置に係わる一実施形態を図示したブロック図であり、前記オーディオ信号の符号化装置は、第1変換部500、第2変換部505、周波数成分検出部510、周波数成分符号化部515、エネルギー値計算部520、エネルギー値符号化部525、第3変換部530、帯域幅拡張符号化部535、トーナリティ符号化部540及び多重化部545を含むことができる。
第1変換部500は、入力端子INを介して入力されたオーディオ信号を、既設定の第1変換方式で、時間ドメインから周波数ドメインに変換できる。ここで、オーディオ信号の例として、音声信号または音楽信号などがある。
第2変換部505は、心理音響モデルを適用するために、第1変換方式以外の他の既設定の方式である第2変換方式でも、入力端子INを介して入力されたオーディオ信号を、時間ドメインから周波数ドメインに変換できる。
第1変換部500で変換された信号は、オーディオ信号の符号化に利用され、第2変換部505で変換された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。ここで、心理音響モデルは、ヒューマン聴覚システムの遮蔽作用に係わる数学的モデルをいう。
例えば、第1変換部500は、オーディオ信号を第1変換方式に該当するMDCTによって、周波数ドメインに変換して実数部で表現し、第2変換部505は、オーディオ信号を第2変換方式に該当するMDSTによって、周波数ドメインに変換して虚数部で表現できる。ここで、MDCTによって変換されて実数部で表現された信号は、オーディオ信号の符号化に使われ、MDSTによって変換されて虚数部で表現された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用される。これによって、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを遂行した後、MDCTの係数を量子化することによって、発生するミスマッチを解決できる。
周波数成分検出部510は、第1変換部500で変換された信号から、既設定の基準によって、第2変換部505で変換された信号を利用し、重要な周波数成分であると判断される周波数成分を検出できる。周波数成分検出部510で重要な周波数成分を検出するにおいて、次のような方法がある。第一に、SMR値を計算し、マスキング閾値より大きい信号を重要な周波数成分として決定できる。第二に、所定の重み付けを考慮してスペクトルピークを抽出し、重要な周波数成分を決定できる。第三に、各サブバンド別にSNR値を計算し、SNR値が低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を、重要周波数成分として決定できる。前述の三種の方法は、それぞれ実施できるが、少なくとも一つ以上の方法を結合して組み合わせることによって、実施することができ、前述の方法は単なる例に過ぎず、前述の方法に限定して実施しなければならないというものではない。
周波数成分符号化部515は、周波数成分検出部510で検出された周波数成分と、その周波数成分の位置を示す情報とを符号化できる。
エネルギー値計算部520は、周波数成分符号化部515で符号化された周波数成分が含まれたバンド、または既設定の周波数より小さい領域に該当するバンドでの信号のエネルギー値を計算できる。ここでバンドの例として、QMFの場合、バンドは、1個のサブバンド、または1個のスケールファクタ・バンドになりうる。
エネルギー値符号化部525は、エネルギー値計算部520で計算された各バンドのエネルギー値と、そのバンドの位置を示す情報とを符号化できる。
第3変換部530は、入力端子INを介して入力されたオーディオ信号を、分析フィルタバンク(analysis filter bank)によって、所定の周波数バンド別に、時間ドメインによって示すようにドメインを変換できる。例えば、第3変換部530では、QMFを適用してドメインを変換できる。
帯域幅拡張符号化部535は、既設定の周波数より小さい領域に該当する低周波数信号を利用し、周波数成分検出部510で検出された周波数成分が含まれていないバンドのうち、既設定の周波数より大きい領域に該当する第3変換部530で変換された信号を符号化できる。帯域幅拡張符号化部535で符号化するにおいて、低周波数信号を利用し、既設定の周波数より大きい領域に該当する所定バンドの信号を復号化できる情報を生成して符号化できる。
トーナリティ符号化部540は、周波数成分検出部515で検出された周波数成分が含まれたバンドでの、第1変換部500で変換された信号に対する各トーナリティを計算して符号化できる。しかし本発明の概念では、トーナリティ符号化部540を必ず含めて実施しなければならないものではない。ただし、復号化器(図示せず)で、周波数成分が作られたバンドに信号を生成するにおいて、単数の信号を利用して生成するのではなく、複数の信号を利用して単数の信号を生成する場合に、トーナリティ符号化部540が必要でありうる。例えば、復号化器(図示せず)で、任意に生成された信号とパッチされた信号とをいずれも利用し、周波数成分が含まれたバンドに作られる信号を生成する場合に必要である。
多重化部545は、周波数成分符号化部515で符号化された周波数成分、並びにその周波数成分の位置を示す情報、エネルギー値符号化部525で符号化された各バンドのエネルギー値、並びに各バンドの位置を示す情報、及び帯域幅拡張符号化部535で、低周波数信号を利用し、既設定の周波数より大きい領域に該当するバンドのうち、周波数成分を含まないバンドでの信号を復号化できる情報を含んで多重化し、出力端子OUTを介して、多重化されたビットストリームを出力できる。所定の場合、多重化部545は、トーナリティ符号化部540で符号化されたトーナリティも含んで多重化できる。
図6は、本発明の概念によるオーディオ信号の復号化装置に係わる一実施形態を図示したブロック図であり、前記オーディオ信号の復号化装置は、逆多重化部600、周波数成分復号化部605、エネルギー値復号化部610、トーナリティ復号化部613、信号生成部615、信号調節部620、第1信号合成部625、第1逆変換部630、第2変換部635、同期化部640、帯域幅拡張符号化部645、第2逆変換部650及び第2信号合成部655を含むことができる。
逆多重化部600は、符号化端から入力端子INを介して、ビットストリームを入力されて逆多重化できる。例えば、周波数成分、並びにその周波数成分の位置を示す情報、各バンドのエネルギー値、符号化器(図示せず)でエネルギー値が符号化されたバンドの位置、既設定の周波数より小さい領域に該当する信号を利用し、既設定の周波数より大きい領域に該当するバンドのうち、周波数成分を含まないバンドでの信号を復号化できる情報、及びトーナリティなどを、逆多重化部600で逆多重化できる。
周波数成分復号化部605は、符号化器(図示せず)で既設定の基準によって、重要な周波数成分であると判断されて符号化された所定の周波数成分を復号化できる。
エネルギー値復号化部610は、周波数成分復号化部605で復号化された周波数成分が含まれたバンド、または既設定の周波数より小さい領域に該当するバンドの信号に係わるエネルギー値を復号化できる。
トーナリティ復号化部613は、周波数成分復号化部605で復号化された周波数成分が含まれたバンドでの信号のトーナリティを復号化できる。しかし本発明の概念では、トーナリティ復号化部613を必ず含めて実施しなければならないものではない。ただし、信号生成部615で、単数の信号を利用して生成するのではなく、複数の信号を利用して単数の信号を生成する場合に、トーナリティ復号化部613が必要でありうる。例えば、信号生成部615で、任意に生成された信号とパッチされた信号とをいずれも利用し、周波数成分復号化部605で復号化された周波数成分が含まれたバンドに作られる信号を生成する場合に必要でありうる。もし本発明の概念で、トーナリティ復号化部613を含んで実施する場合、信号調節部620は、トーナリティ復号化部613で復号化されたトーナリティまで考慮し、信号生成部615で生成された信号を調節できる。
信号生成部615は、エネルギー値復号化部610で復号化された周波数成分が含まれたバンド、または既設定の周波数より小さい領域に該当するバンドのエネルギー値を有する各バンドでの信号を生成しうる。
ここで、信号生成部615で信号を生成する方法として、次に述べる例がありうる。第一に、信号生成部615は、任意にノイズ信号を生成しうる。例えば、ランダムノイズ信号がある。第二に、信号生成部615は、所定のバンドでの信号が、既設定の周波数より大きい領域に該当する高周波数信号であり、既設定の周波数より小さい領域に該当する低周波数信号が、すでに復号化されて利用されうるならば、低周波数信号をコピーして、信号を生成しうる。例えば、低周波数領域に該当する信号をパッチしたりフォールディングして、当該バンドの信号を生成しうる。
信号調節部620は、周波数成分復号化部605で復号化された周波数成分が含まれたバンドに係わり、信号生成部615で生成された信号を調節できる。ここで、信号調節部620は、エネルギー値復号化部610で復号化された各バンドのエネルギー値を基に、周波数成分復号化部605で復号化された周波数成分のエネルギー値を考慮し、信号生成部620で生成された信号のエネルギーが調節されるように、信号生成部620で生成された信号を調節できる。信号調節部620に係わるさらに詳細な一実施形態は、図13の説明と共に後述する。
第1信号合成部625は、周波数成分復号化部605で復号化された周波数成分が含まれたバンドに対し、周波数成分復号化部605で復号化された周波数成分と、信号調節部620で調節された信号とを合成して作り、周波数成分復号化部605で復号化された周波数成分が含まれていないバンドのうち、既設定の周波数より小さい領域に該当するバンドに係わり、信号生成部615で生成された信号で作ることができる。
逆変換部630は、図5の第1変換部500で遂行する変換の逆過程であり、信号合成部625で作られた信号を、既設定の第1逆変換方式で、周波数ドメインから時間ドメインに変換できる。第1逆変換方式の例として、IMDCTがある。
第2変換部635は、分析フィルタバンクによって、第1逆変換部630で逆変換された信号を、所定の周波数バンド別に時間ドメインによって示すように、ドメインを変換できる。例えば、第2変換部635では、QMFを適用してドメインを変換できる。
同期化部640は、周波数成分復号化部605で適用されるフレームと、帯域幅拡張復号化部645で適用されるフレームとが互いに一致しない場合、周波数成分復号化部605で適用されるフレームと、帯域幅拡張復号化部645で適用されるフレームとを同期化できる。ここで、同期化部640は、周波数成分復号化部605で適用されるフレームを基に、帯域幅拡張復号化部645で適用されるフレームのうち、全部または一部を処理することが望ましい。
帯域幅拡張復号化部645は、第2変換部635で変換された信号のうち、既設定の周波数より小さい領域に該当する信号を利用し、既設定の周波数より大きい領域に該当するバンドのうち、周波数成分復号化部605で復号化された周波数成分が含まれていないバンドでの信号を復号化できる。ここで、帯域幅拡張復号化部645は、復号化するにおいて、逆多重化部600で逆多重化された既設定の周波数より小さい領域に該当する信号を利用し、既設定の周波数より大きい領域に該当する信号を復号化できる情報を利用できる。
第2逆変換部650は、図6の第2変換部635で遂行する変換の逆過程であり、帯域幅拡張復号化部645で復号化された信号のドメインを、合成フィルタバンク(synthesis filterbank)を介して逆変換できる。
第2信号合成部655は、第1逆変換部630で逆変換された信号と、第2逆変換部650で逆変換された信号とを合成できる。第1逆変換部630で逆変換された信号は、周波数成分復号化部605で復号化された周波数成分が含まれたバンドでの信号と、周波数成分復号化部605で復号化された周波数成分が含まれていないバンドのうち、既設定の周波数より小さい領域に該当するバンドでの信号とでありうる。また、第2逆変換部650で逆変換された信号は、周波数成分復号化部605で復号化された周波数成分が含まれていないバンドのうち、既設定の周波数より大きい領域に該当するバンドでの信号でありうる。これによって、周波数全領域に係わるオーディオ信号を、第2信号合成部655は復元し、出力端子OUTを介して出力できる。
図7は、本発明の概念によるオーディオ信号の符号化装置に係わる一実施形態を図示したブロック図であり、前記オーディオ信号の符号化装置は、第1変換部700、第2変換部705、周波数成分検出部710、周波数成分符号化部715、エネルギー値計算部720、エネルギー値符号化部725、第3変換部730、帯域幅拡張符号化部735、トーナリティ符号化部740及び多重化部745を含むことができる。
第1変換部700は、入力端子INを介して入力されたオーディオ信号を、既設定の第1変換方式で、時間ドメインから周波数ドメインに変換できる。ここで、オーディオ信号の例として、音声信号または音楽信号などがある。
第2変換部705は、心理音響モデルを適用するために、第1変換方式以外の他の既設定の方式である第2変換方式でも、入力端子INを介して入力されたオーディオ信号を、時間ドメインから周波数ドメインに変換できる。
第1変換部700で変換された信号は、オーディオ信号の符号化に利用され、第2変換部705で変換された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。ここで、心理音響モデルは、ヒューマン聴覚システムの遮蔽作用に係わる数学的モデルをいう。
例えば、第1変換部700は、オーディオ信号を、第1変換方式に該当するMDCTによって、周波数ドメインに変換して実数部で表現し、第2変換部705は、オーディオ信号を、第2変換方式に該当するMDSTによって、周波数ドメインに変換して虚数部で表現できる。ここで、MDCTによって変換されて実数部で表現された信号は、オーディオ信号の符号化に使われ、MDSTによって変換されて虚数部で表現された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。これによって、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを遂行した後、MDCTの係数を量子化することによって、発生するミスマッチを解決できる。
周波数成分検出部710は、第1変換部700で変換された信号から、既設定の基準によって、第2変換部705で変換された信号を利用し、重要な周波数成分であると判断される周波数成分を検出できる。周波数成分検出部710で重要な周波数成分を検出するにおいて、次のような方法がありうる。第一に、SMR値を計算し、マスキング閾値より大きい信号を重要な周波数成分として決定できる。第二に、所定の重み付けを考慮してスペクトルピークを抽出し、重要な周波数成分を決定できる。第三に、各サブバンド別にSNR値を計算し、SNR値が低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を、重要周波数成分として決定できる。前述の三種の方法は、それぞれ実施できるが、少なくとも一つ以上の方法を結合して組み合わせることによって、実施することができ、前述の方法は単なる例に過ぎず、前述の方法に限定して実施しなければならないというものではない。
周波数成分符号化部715は、周波数成分検出部710で検出された周波数成分と、その周波数成分の位置を示す情報とを符号化できる。
エネルギー値計算部720は、既設定の周波数より小さい領域に該当するバンドでの信号のエネルギー値を計算できる。ここでバンドの例として、QMFの場合にバンドは、1個のサブバンド、または1個のスケールファクタ・バンドになりうる。
エネルギー値符号化部725は、エネルギー値計算部720で計算された各バンドのエネルギー値と、そのバンドの位置を示す情報とを符号化できる。
第3変換部730は、入力端子INを介して入力されたオーディオ信号を、分析フィルタバンクによって所定の周波数バンド別に時間ドメインによって示すように、ドメインを変換できる。例えば、第3変換部730では、QMFを適用してドメインを変換できる。
帯域幅拡張符号化部735は、既設定の周波数より小さい領域に該当する低周波数信号を利用し、第3変換部730で変換された信号のうち、既設定の第2周波数より大きい領域に該当する高周波数信号を符号化できる。帯域幅拡張符号化部735で符号化するにおいて、低周波数信号を利用し、第2周波数より大きい領域に該当する信号を復号化できる情報を生成して符号化できる。
トーナリティ符号化部740は、周波数成分検出部715で検出された周波数成分が含まれたバンドでの信号の各トーナリティを計算して符号化できる。しかし本発明の概念では、トーナリティ符号化部740を必ず含めて実施しなければならないものではない。ただし、復号化器(図示せず)で、周波数成分が作られたバンドに信号を生成するにおいて、単数の信号を利用して生成するのではなく、複数の信号を利用して単数の信号を生成する場合に、トーナリティ符号化部740が必要でありうる。例えば、復号化器(図示せず)で、任意に生成された信号とパッチされた信号とをいずれも利用し、周波数成分が含まれたバンドに作られる信号を生成する場合に必要である。
多重化部745は、周波数成分符号化部715で符号化された周波数成分、並びに周波数成分の位置を示す情報、エネルギー値符号化部725で符号化された各バンドのエネルギー値及びそのバンドの位置を示す情報、及び帯域幅拡張符号化部735で、低周波数信号を利用して高周波数信号を復号化できる情報を含んで多重化でき、出力端子OUTを介して、多重化されたビットストリームを出力できる。所定の場合、多重化部745は、トーナリティ符号化部740で符号化されたトーナリティも含んで多重化できる。
図8は、本発明の概念によるオーディオ信号の復号化装置に係わる一実施形態を図示したブロック図であり、前記オーディオ信号の復号化装置は、逆多重化部800、周波数成分復号化部805、エネルギー値復号化部810、トーナリティ復号化部815、信号生成部820、信号調節部825、第1信号合成部830、第1逆変換部835、第2変換部840、同期化部845、帯域幅拡張符号化部850、第2信号調節部855、第2信号合成部860、第2逆変換部865及び領域合成部870を含むことができる。
逆多重化部800は、符号化端から入力端子INを介して、ビットストリームを入力されて逆多重化できる。例えば、周波数成分、並びにその周波数成分の位置を示す情報、各バンドのエネルギー値、符号化器(図示せず)でエネルギー値が符号化されたバンドの位置、既設定の周波数より小さい領域に該当する信号を利用し、既設定の周波数より大きい領域に該当する信号を復号化できる情報、及びトーナリティなどを、逆多重化部800で逆多重化できる。
周波数成分復号化部805は、符号化器(図示せず)で既設定の基準によって、重要な周波数成分であると判断されて符号化された所定の周波数成分を復号化できる。
エネルギー値復号化部810は、既設定の周波数より小さい領域に該当する低周波数信号の各バンドに係わるエネルギー値を復号化できる。
トーナリティ復号化部815は、既設定の周波数より小さい領域に該当するバンドのうち、周波数成分復号化部805で復号化された周波数成分が含まれたバンドでの信号に係わるトーナリティを復号化できる。しかし本発明の概念では、トーナリティ復号化部815を必ず含めて実施しなければならないものではない。ただし、信号生成部820で、単数の信号を利用して生成するのではなく、複数の信号を利用して単数の信号を生成する場合に、トーナリティ復号化部815が必要でありうる。例えば、信号生成部820で、任意に生成された信号とパッチされた信号とをいずれも利用し、周波数成分復号化部805で復号化された周波数成分が含まれたバンドに作られる信号を生成する場合に必要でありうる。もし本発明の概念で、トーナリティ復号化部815を含んで実施する場合、信号調節部825は、トーナリティ復号化部815で復号化されたトーナリティまで考慮し、信号生成部820で生成された信号を調節できる。
信号生成部820は、エネルギー値復号化部810で復号化されたバンドのエネルギー値を有する各バンドでの信号を生成しうる。
ここで、信号生成部820で信号を生成する方法として、次に述べる例がありうる。第一に、信号生成部820は、任意にノイズ信号を生成しうる。例えば、ランダムノイズ信号がある。第二に、信号生成部820は、所定のバンドでの信号が、すでに復号化されて利用されうるならば、復号化されたバンドの信号をコピーして、信号を生成しうる。例えば、復号化されたバンドの信号をパッチしたりフォールディングして、信号を生成しうる。
信号調節部825は、既設定の周波数より小さい領域に該当するバンドのうち、周波数成分復号化部805で復号化された周波数成分が含まれたバンドに係わり、信号生成部820で生成された信号を調節できる。ここで、信号調節部825は、エネルギー値復号化部810で復号化された各バンドのエネルギー値を基に、周波数成分復号化部805で復号化された周波数成分のエネルギー値を考慮し、信号生成部820で生成された信号のエネルギーが調節されるように、信号生成部820で生成された信号を調節できる。信号調節部815に係わるさらに詳細な一実施形態は、図13の説明と共に後述する。
第1信号合成部830は、既設定の周波数より小さい領域に該当するバンドのうち、周波数成分復号化部805で復号化された周波数成分が含まれたバンドに対し、周波数成分復号化部805で復号化された周波数成分と、信号調節部825で調節された信号とを合成して作り、既設定の周波数より小さい領域に該当するバンドのうち、周波数成分復号化部805で復号化された周波数成分が含まれていないバンドに係わり、信号生成部820で生成された信号で作ることができる。これによって、第1信号合成部830では、低周波数信号を復元できる。
第1逆変換部835は、図7の第1変換部700で遂行する変換の逆過程であり、第1信号合成部830で復元された低周波数信号を、既設定の第1逆変換方式で、周波数ドメインから時間ドメインに変換できる。第1逆変換方式の例として、IMDCTがある。
第2変換部840は、第1逆変換部835で逆変換された低周波数信号を、分析フィルタバンクによって所定の周波数バンド別に時間ドメインによって示すように、ドメインを変換できる。例えば、第2変換部840では、QMFを適用してドメインを変換できる。
同期化部845は、周波数成分復号化部805で適用されるフレームと、帯域幅拡張復号化部850で適用されるフレームとが互いに一致しない場合、周波数成分復号化部805で適用されるフレームと、帯域幅拡張復号化部850で適用されるフレームとを同期化できる。ここで、同期化部845は、周波数成分復号化部805で適用されるフレームを基に、帯域幅拡張復号化部850で適用されるフレームのうち、全部または一部を処理することが望ましい。
帯域幅拡張復号化部850は、第2変換部840で変換された低周波数信号を利用し、既設定の周波数より大きい領域に該当する信号の高周波数信号を復号化できる。ここで、帯域幅拡張復号化部850は、復号化するにおいて、逆多重化部800で逆多重化された低周波数信号を利用して高周波数信号を復号化できる情報を利用できる。
第2信号調節部855は、帯域幅拡張復号化部850で復号化された高周波数信号のうち、周波数成分復号化部805で復号化された周波数成分が含まれたバンドでの信号を調節できる。
まず、第2信号調節部855は、既設定の周波数より大きい領域に作られた周波数成分のエネルギー値を計算できる。そして、第2信号調節部855で調節するバンドでの信号に係わるエネルギーが、帯域幅拡張復号化部850で復号化された信号のエネルギー値から、各バンドに含まれた周波数成分のエネルギー値を減算した値になるように、帯域幅拡張復号化部850で復号化された当該バンドに作られた高周波数信号を調節できる。
第2信号合成部860は、既設定の周波数より大きい領域に該当するバンドのうち、周波数成分復号化部805で復号化された周波数成分が含まれたバンドに対し、周波数成分復号化部805で復号化された周波数成分と、第2信号調節部855で調節された信号とを合成して作り、既設定の周波数より大きい領域に該当するバンドのうち、周波数成分復号化部805で復号化された周波数成分が含まれていないバンドに対し、帯域幅拡張復号化部850で復号化された信号で作ることができる。これによって、第2信号合成部860では、高周波数信号を復元できる。
第2逆変換部865は、第2変換部840で遂行する変換の逆過程であり、第2信号合成部860で復元された高周波数信号のドメインを、合成フィルタバンクを介して逆変換できる。
第3信号合成部870は、第1逆変換部835で逆変換された低周波数信号と、第2逆変換部865で逆変換された高周波数信号とを合成し、出力端子OUTを介して出力できる。
図9は、本発明の概念によるオーディオ信号の符号化装置に係わる一実施形態を図示したブロック図であり、前記オーディオ信号の符号化装置は、領域分割部900、第1変換部903、第2変換部905、周波数成分検出部910、周波数成分符号化部915、エネルギー値計算部920、エネルギー値符号化部925、トーナリティ符号化部930、第3変換部935、帯域幅拡張符号化部940及び多重化部945を含むことができる。
領域分割部900は、既設定の周波数を基準として、入力端子INを介して入力された信号を、低周波数信号と高周波数信号とに分割できる。ここで、低周波数信号は、既設定の第1周波数より小さい領域に該当する信号であり、高周波数信号は、既設定の第2周波数より大きい領域に該当する信号をいう。第1周波数と第2周波数は、互いに同じ値に設定されることが望ましいが、必ずしも同じ値に設定して実施しなければならないというものではない。
第1変換部903は、領域分割部900で分割された低周波数信号を、既設定の第1変換方式で、時間ドメインから周波数ドメインに変換できる。
第2変換部905は、心理音響モデルを適用するために、第1変換方式以外の他の既設定の方式である第2変換方式でも、領域分割部900で分割された低周波数信号を、時間ドメインから周波数ドメインに変換できる。
第1変換部903で変換された信号は、低周波数信号を符号化するのに利用され、第2変換部905で変換された信号は、低周波数信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。ここで、心理音響モデルは、ヒューマン聴覚システムの遮蔽作用に係わる数学的モデルをいう。
例えば、第1変換部903は、低周波数信号を、第1変換方式に該当するMDCTによって、周波数ドメインに変換して実数部で表現し、第2変換部905は、低周波数信号を、第2変換方式に該当するMDSTによって、周波数ドメインに変換して虚数部で表現できる。ここで、MDCTによって変換されて実数部で表現された信号は、低周波数信号を符号化するのに使われ、MDSTによって変換されて虚数部で表現された信号は、低周波数信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。これによって、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを遂行した後、MDCTの係数を量子化することによって、発生するミスマッチを解決できる。
周波数成分検出部910は、第1変換部903で変換された低周波数信号から、既設定の基準によって、第2変換部905で変換された信号を利用し、重要な周波数成分であると判断される周波数成分を検出できる。周波数成分検出部910で重要な周波数成分を検出するにおいて、次のような方法がありうる。第一に、SMR値を計算し、マスキング閾値より大きい信号を重要な周波数成分として決定できる。第二に、所定の重み付けを考慮してスペクトルピークを抽出し、重要な周波数成分を決定できる。第三に、各サブバンド別にSNR値を計算し、SNR値が低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を、重要周波数成分として決定できる。前述の三種の方法は、それぞれ実施できるが、少なくとも一つ以上の方法を結合して組み合わせることによって、実施することができ、前述の方法は単なる例に過ぎず、前述の方法に限定して実施しなければならないというものではない。
周波数成分符号化部915は、周波数成分検出部910で検出された低周波数信号の周波数成分と、その周波数成分の位置を示す情報とを符号化できる。
エネルギー値計算部920は、第1変換部903で変換された低周波数信号の各バンドでの信号に係わるエネルギー値を計算できる。ここでバンドの例として、QMFの場合にバンドは、1個のサブバンド、または1個のスケールファクタ・バンドになりうる。
エネルギー値符号化部925は、エネルギー値計算部920で計算された各バンドのエネルギー値と、そのバンドの位置を示す情報とを符号化できる。
トーナリティ符号化部930は、周波数成分検出部910で検出された周波数成分が含まれたバンドでの信号に対する各トーナリティを計算して符号化できる。しかし本発明の概念では、トーナリティ符号化部930を必ず含めて実施しなければならないものではない。ただし、復号化器(図示せず)で、周波数成分が作られたバンドに信号を生成するにおいて、単数の信号を利用して生成するのではなく、複数の信号を利用して単数の信号を生成する場合に、トーナリティ符号化部930が必要でありうる。例えば、復号化器(図示せず)で、任意に生成された信号とパッチされた信号とをいずれも利用し、周波数成分が含まれたバンドに作られる信号を生成する場合に必要である。
第3変換部935は、領域分割部900で分割された高周波数信号を、分析フィルタバンクによって所定の周波数バンド別に時間ドメインによって示すように、ドメインを変換できる。例えば、第3変換部935では、QMFを適用してドメインを変換できる。
帯域幅拡張符号化部940は、低周波数信号を利用し、第3変換部730で変換された高周波数信号を符号化できる。帯域幅拡張符号化部735で符号化するにおいて、低周波数信号を利用して高周波数信号を復号化できる情報を生成して符号化できる。
多重化部945は、周波数成分符号化部915で符号化された周波数成分、並びにその周波数成分の位置を示す情報、エネルギー値符号化部925で符号化された各バンドのエネルギー値及びそのバンドの位置を示す情報、及び帯域幅拡張符号化部940で符号化された低周波数信号を利用して高周波数信号を符号化する情報を含んで多重化でき、出力端子OUTを介して、多重化されたビットストリームを出力できる。所定の場合、多重化部945は、トーナリティ符号化部930で符号化されたトーナリティも含んで多重化できる。
図10は、本発明の概念によるオーディオ信号の復号化装置の一実施形態を図示したブロック図であり、前記オーディオ信号の復号化装置は、逆多重化部1000、周波数成分復号化部1005、エネルギー値復号化部1010、信号生成部1015、信号調節部1020、信号合成部1025、第1逆変換部1030、第2変換部1035、同期化部1040、帯域幅拡張復号化部1045、第2逆変換部1050及び領域合成部1055を含むことができる。
逆多重化部1000は、符号化端から入力端子INを介して、ビットストリームを入力されて逆多重化できる。例えば、周波数成分、並びにその周波数成分の位置を示す情報、各バンドのエネルギー値、符号化器(図示せず)でエネルギー値が符号化されたバンドの位置、低周波数信号を利用して高周波数信号を符号化する情報、及びトーナリティなどを、逆多重化部1000で逆多重化できる。
周波数成分復号化部1005は、符号化器(図示せず)で、既設定の周波数より小さい領域に該当する低周波数信号に係わり、既設定の基準によって重要な周波数成分であると判断されて符号化された所定の周波数成分を復号化できる。
エネルギー値復号化部1010は、既設定の周波数より小さい領域に該当するバンドに作られた各バンド別信号のエネルギー値を復号化できる。
信号生成部1015は、エネルギー値復号化部1010で復号化された各バンドのエネルギー値を有する信号を各バンド別に生成しうる。
ここで、信号生成部1015で信号を生成する方法として、次に述べる例がありうる。第一に、信号生成部1015は、任意にノイズ信号を生成しうる。例えば、ランダムノイズ信号がある。第二に、信号生成部1015は、所定のバンドでの信号が、高周波数領域に該当する信号であり、低周波数領域に該当する信号が、すでに復号化されて利用されうるならば、低周波数領域に該当する信号をコピーして、信号を生成しうる。例えば、低周波数領域に該当する信号をパッチしたりフォールディングして、信号を生成しうる。
信号調節部1020は、周波数成分復号化部1005で復号化された周波数成分が含まれたバンドに係わり、信号生成部1015で生成された信号を調節できる。ここで、信号調節部1020は、エネルギー値復号化部1010で復号化された各バンドのエネルギー値を基に、周波数成分復号化部1005で復号化された周波数成分のエネルギー値を考慮し、信号生成部1020で生成された信号のエネルギーが調節されるように、信号生成部1020で生成された信号を調節できる。信号調節部1020に係わるさらに詳細な一実施形態は、図13の説明と共に後述する。
しかし、信号調節部1020は、周波数成分復号化部1005で復号化された周波数成分が含まれていないバンドで作られた、信号生成部1015で生成された信号を調節しないこともある。
信号合成部1025は、既設定の周波数より小さい領域に該当するバンドのうち、周波数成分復号化部1005で復号化された周波数成分が含まれたバンドに対し、周波数成分復号化部1005で復号化された周波数成分と、信号調節部1020で調節された信号とを合成して作り、既設定の周波数より小さい領域に該当するバンドのうち、周波数成分復号化部1005で復号化された周波数成分が含まれていないバンドに係わり、信号生成部1015で生成された信号で作ることができる。これによって、信号合成部1025では、低周波数信号を復元できる。
第1逆変換部1030は、図9の第1変換部903で遂行する変換の逆過程であり、信号合成部1025で作られた信号を、既設定の第1逆変換方式で、周波数ドメインから時間ドメインに変換できる。第1逆変換方式の例として、IMDCTがある。
第2変換部1035は、分析フィルタバンクによって、第1逆変換部1030で逆変換された低周波数信号を、所定の周波数バンド別に時間ドメインによって示すように、ドメインを変換できる。例えば、第2変換部1035では、QMFを適用してドメインを変換する。
同期化部1040は、周波数成分復号化部1005で適用されるフレームと、帯域幅拡張復号化部1045で適用されるフレームとが互いに一致しない場合、周波数成分復号化部1005で適用されるフレームと、帯域幅拡張復号化部1045で適用されるフレームとを同期化できる。ここで、同期化部1040は、周波数成分復号化部1005で適用されるフレームを基に、帯域幅拡張復号化部1045で適用されるフレームのうち、全部または一部を処理することが望ましい。
帯域幅拡張復号化部1045は、第2変換部1035で変換された低周波数信号を利用して高周波数信号を復号化できる。ここで、帯域幅拡張復号化部1045は、復号化するにおいて、逆多重化部1000で逆多重化された低周波数信号を利用して高周波数信号を復号化できる情報を利用できる。
第2逆変換部1050は、第2変換部1035で遂行する変換の逆過程であり、帯域幅拡張復号化部1045で復号化された高周波数信号のドメインを、合成フィルタバンクを介して逆変換できる。
領域合成部1055は、第1逆変換部1030で逆変換された低周波数信号と、第2逆変換部1050で逆変換された高周波数信号とを合成し、出力端子OUTを介して出力できる。
図11は、本発明の概念によるオーディオ信号の符号化装置に係わる一実施形態を図示したブロック図であり、前記オーディオ信号の符号化装置は、領域分割部1100、第1変換部1103、第2変換部1105、周波数成分検出部1110、周波数成分符号化部1115、包絡線抽出部1120、包絡線符号化部1125、第3変換部1130、帯域幅拡張符号化部1135及び多重化部1140を含むことができる。
領域分割部1100は、既設定の周波数を基準として、入力端子INを介して入力された信号を、低周波数信号と高周波数信号とに分割できる。ここで、低周波数信号は、既設定の第1周波数より小さい領域に該当する信号であり、高周波数信号は、既設定の第2周波数より大きい領域に該当する信号をいう。第1周波数と第2周波数は、互いに同じ値に設定されることが望ましいが、必ずしも同じ値に設定して実施しなければならないというものではない。
第1変換部1103は、領域分割部1100で分割された低周波数信号を、既設定の第1変換方式で、時間ドメインから周波数ドメインに変換できる。
第2変換部1105は、心理音響モデルを適用するために、第1変換方式以外の他の既設定の方式である第2変換方式でも、領域分割部1100で分割された低周波数信号を、時間ドメインから周波数ドメインに変換できる。
第1変換部1103で変換された信号は、低周波数信号を符号化するのに利用され、第2変換部1105で変換された信号は、低周波数信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。ここで、心理音響モデルは、ヒューマン聴覚システムの遮蔽作用に係わる数学的モデルをいう。
例えば、第1変換部1103は、低周波数信号を、第1変換方式に該当するMDCTによって、周波数ドメインに変換して実数部で表現し、第2変換部1105は、低周波数信号を、第2変換方式に該当するMDSTによって、周波数ドメインに変換して虚数部で表現できる。ここで、MDCTによって変換されて実数部で表現された信号は、低周波数信号を符号化するのに使われ、MDSTによって変換されて虚数部で表現された信号は、低周波数信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。これによって、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを遂行した後、MDCTの係数を量子化することによって、発生するミスマッチを解決できる。
周波数成分検出部1110は、第1変換部1103で変換された低周波数信号から、既設定の基準によって、第2変換部1105で変換された信号を利用し、重要な周波数成分であると判断される周波数成分を検出できる。周波数成分検出部1110で重要な周波数成分を検出するにおいて、次のような方法がありうる。第一に、SMR値を計算し、マスキング閾値より大きい信号を重要な周波数成分として決定できる。第二に、所定の重み付けを考慮してスペクトルピークを抽出し、重要な周波数成分を決定できる。第三に、各サブバンド別にSNR値を計算し、SNR値が低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を、重要周波数成分として決定できる。前述の三種の方法は、それぞれ実施できるが、少なくとも一つ以上の方法を結合して組み合わせることによって、実施することができ、前述の方法は単なる例に過ぎず、前述の方法に限定して実施しなければならないというものではない。
周波数成分符号化部1115は、周波数成分検出部1110で検出された低周波数信号の周波数成分と、その周波数成分の位置を示す情報とを符号化できる。
包絡線抽出部1120は、第1変換部1103で変換された低周波数信号の包絡線を抽出できる。
包絡線符号化部1125は、包絡線抽出部1120で抽出した低周波数信号の包絡線を符号化できる。
第3変換部1130は、領域分割部1100で分割された高周波数信号を、分析フィルタバンクによって所定の周波数バンド別に時間ドメインによって示すように、ドメインを変換できる。例えば、第3変換部1130では、QMFを適用してドメインを変換できる。
帯域幅拡張符号化部1135は、低周波数信号を利用し、第3変換部1130で変換された高周波数信号を符号化できる。帯域幅拡張符号化部1135で符号化するにおいて、低周波数信号を利用して高周波数信号を復号化できる情報を生成して符号化できる。
多重化部1140は、周波数成分符号化部1115で符号化された周波数成分、並びに周波数成分の位置を示す情報、包絡線符号化部1125で符号化された低周波数信号の包絡線、及び帯域幅拡張符号化部1135で符号化された低周波数信号を利用して高周波数信号を復号化できる情報を含んで多重化でき、出力端子OUTを介して、多重化されたビットストリームを出力できる。
図12は、本発明の概念によるオーディオ信号の復号化装置の一実施形態を図示したブロック図であり、前記オーディオ信号の復号化装置は、逆多重化部1200、周波数成分復号化部1205、包絡線復号化部1210、エネルギー計算部1215、包絡線調節部1220、信号合成部1225、第1逆変換部1230、第2変換部1235、同期化部1240、帯域幅拡張復号化部1245、第2逆変換部1250及び領域合成部1255を含むことができる。
逆多重化部1200は、符号化端から入力端子INを介して、ビットストリームを入力されて逆多重化できる。例えば、周波数成分、並びに周波数成分の位置を示す情報、符号化器(図示せず)で符号化された低周波数信号の包絡線、並びに低周波数信号を利用して高周波数信号を復号化できる情報などを、逆多重化部1200で逆多重化できる。ここで、低周波数信号は、既設定の第1周波数より小さい領域に該当する信号であり、高周波数信号は、既設定の第2周波数より大きい領域に該当する信号をいう。第1周波数と第2周波数は、互いに同じ値に設定されることが望ましいが、必ずしも同じ値に設定して実施しなければならないというものではない。
周波数成分復号化部1205は、符号化器(図示せず)で既設定の基準によって、低周波数信号から重要な周波数成分であると判断されて符号化された所定の周波数成分を復号化できる。
包絡線復号化部1210は、符号化器(図示せず)で符号化された低周波数信号の包絡線を復号化できる。
エネルギー計算部1215は、周波数成分復号化部1205で復号化された各周波数成分のエネルギー値を計算できる。
包絡線調節部1220は、周波数成分復号化部1205で復号化された周波数成分が含まれたバンドに作られた、包絡線復号化部1210で復号化された低周波数信号の包絡線を調節できる。ここで、包絡線調節部1220は、包絡線復号化部1210で復号化された各バンドに作られた包絡線のエネルギー値が、周波数成分復号化部1205で復号化された周波数成分が含まれた各バンドに作られた、包絡線復号化部1210で復号化された包絡線のエネルギー値から、そのバンドに含まれた周波数成分のエネルギー値を減算した値になるように、包絡線復号化部1210で復号化された包絡線を調節できる。
しかし包絡線調節部1220は、周波数成分復号化部1205で復号化された周波数成分が含まれていないバンドに作られた、包絡線復号化部1210で復号化された包絡線を調節しないこともある。
信号合成部1225は、既設定の周波数より小さい領域に該当するバンドのうち、周波数成分復号化部1205で復号化された周波数成分が含まれたバンドに対し、周波数成分復号化部1205で復号化された周波数成分と、包絡線調節部1220で調節された包絡線とを合成して作り、既設定の周波数より小さい領域に該当するバンドのうち、周波数成分復号化部1205で復号化された周波数成分が含まれていないバンドに対し、包絡線復号化部1210で復号化された信号で作ることができる。これによって、信号合成部1225では、低周波数信号を復元できる。
第1逆変換部1230は、図11の第1変換部1103で遂行する変換の逆過程であり、信号合成部1225で復元された低周波数信号を、既設定の第1逆変換方式で、周波数ドメインから時間ドメインに変換できる。第1逆変換方式の例として、IMDCTがある。
第2変換部1235は、分析フィルタバンクによって、第1逆変換部1230で逆変換された低周波数信号を、所定の周波数バンド別に時間ドメインによって示すように、ドメインを変換できる。例えば、第2変換部1235では、QMFを適用してドメインを変換する。
同期化部1240は、周波数成分復号化部1205で適用されるフレームと、帯域幅拡張復号化部1245で適用されるフレームとが互いに一致しない場合、周波数成分復号化部1205で適用されるフレームと、帯域幅拡張復号化部1245で適用されるフレームとを同期化できる。ここで、同期化部1240は、周波数成分復号化部1205で適用されるフレームを基に、帯域幅拡張復号化部1245で適用されるフレームのうち、全部または一部を処理することが望ましい。
帯域幅拡張復号化部1245は、第2変換部1235で変換された低周波数信号を利用して高周波数信号を復号化できる。ここで、帯域幅拡張復号化部1245は、復号化するにおいて、逆多重化部1200で逆多重化された低周波数信号を利用して高周波数信号を復号化できる情報を利用できる。
第2逆変換部1250は、第2変換部1235で遂行する変換の逆過程であり、帯域幅拡張復号化部1245で復号化された高周波数信号のドメインを、合成フィルタバンクを介して逆変換できる。
領域合成部1255は、第1逆変換部1230で逆変換された低周波数信号と、第2逆変換部1250で逆変換された高周波数信号とを合成し、出力端子OUTを介して出力できる。
図13は、本発明の概念による復号化装置に含まれる信号調節部220,620,825,1020の一実施形態を図示したブロック図であり、前記信号調節部220,620,825,1020は、第1エネルギー計算部1300、第2エネルギー計算部1310、利得値計算部1320及び利得値適用部1330を含むことができる。図2、図6、図8及び図10を参照し、図13に図示された実施形態を説明する。
第1エネルギー計算部1300は、入力端子IN1を介して信号生成部215,615,820,1015で、周波数成分が含まれたバンドに生成された信号を入力され、各バンドでの信号のエネルギー値を計算できる。
第2エネルギー計算部1310は、入力端子IN2を介して周波数成分復号化部205,605,805,1005で復号化された周波数成分を入力され、各周波数成分のエネルギー値を計算できる。
利得値計算部1320は、エネルギー値復号化部210,610,810,1010から周波数成分が含まれたバンドのエネルギー値を、入力端子IN3を介して入力され、第1エネルギー計算部1300で計算された各エネルギー値が、エネルギー値復号化部210,610,810,1010から入力された各エネルギー値から、第2エネルギー計算部1310で計算された各エネルギー値を減算した値になるように、利得値を計算できる。例えば、利得値計算部1320は、次に記載の式(1)によって利得値を計算できる。
は、エネルギー値復号化部210,610,810,1010から入力された各エネルギー値であり、
は、第2エネルギー計算部1310で計算された各エネルギー値であり、
は、第1エネルギー計算部1300で計算された各エネルギー値を指す。
もし利得値計算部1320で、トーナリティまで考慮して利得値を計算する場合、利得値計算部1320は、エネルギー値復号化部210,610,810,1010から、周波数成分が含まれたバンドのエネルギー値を、入力端子IN3を介して入力され、周波数成分が含まれたバンドでの信号に係わるトーナリティを、入力端子IN4を介して入力され、入力された各エネルギー値、各トーナリティ、及び第2エネルギー計算部1310で計算された各エネルギー値を利用することによって、利得値を計算できる。
利得値適用部1330は、入力端子IN1を介して、信号生成部215,615,820,1015で周波数成分が含まれた各バンドに生成された信号に、利得値計算部1320で計算された各バンドに対する利得値を適用できる。
図14は、図2、図6、図8及び図10に図示された信号生成部215,615,820,1015で、単数の信号だけを利用して信号を生成する場合に、利得値を適用する一実施形態を図示した図である。
利得値適用部1330は、入力端子IN1を介して、信号生成部215,615,820,1015で、周波数成分が含まれたバンドに生成された信号を入力され、利得値計算部1320で計算された利得値を乗算できる。
第1信号合成部1400は、利得値適用部1330で利得値が乗算された信号に、入力端子IN2を介して、周波数成分復号化部205,605,805,1005で復号化された周波数成分を入力されて合成できる。
図15は、図2、図6、図8及び図10に図示された信号生成部215,615,820,1015で、複数の信号を利用して信号を生成する場合に、利得値を適用する一実施形態を図示した図である。
まず、利得値適用部1330は、信号生成部215,615,820,1015で、任意に生成された信号を入力端子IN1を介して入力され、利得値計算部1320で計算された第1利得値を乗算できる。
また、利得値適用部1330は、信号生成部215,615,820,1015で、所定のバンドでの信号をコピーした信号、低周波数信号をコピーした信号、所定のバンドでの信号を利用して生成された信号、及び低周波数信号を利用して生成された信号のうち、いずれか1つの信号を、入力端子IN1’を介して入力され、利得値計算部1320で計算された第2利得値を乗算できる。
第2合成部1500は、利得値適用部1330で第1利得値が乗算された信号と、利得値適用部1330で第2利得値が乗算された信号とを合成できる。
第3信号合成部1510は、第2合成部1500で合成された信号に、入力端子IN2を介して、周波数成分復号化部205,605,805,1005で復号化された周波数成分を入力されて合成できる。
図16は、本発明の概念によるオーディオ信号の符号化方法に係わる一実施形態を図示したフローチャートである。
まず、入力されたオーディオ信号を、既設定の第1変換方式で、時間ドメインから周波数ドメインに変換できる(第1600段階)。ここで、オーディオ信号の例として、音声信号または音楽信号などがある。
心理音響モデルを適用するために、第1変換方式以外の他の既設定の方式である第2変換方式でも、入力されたオーディオ信号を、時間ドメインから周波数ドメインに変換できる(第1605段階)。
第1600段階で変換された信号は、オーディオ信号の符号化に利用され、第1605段階で変換された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。ここで、心理音響モデルは、ヒューマン聴覚システムの遮蔽作用に係わる数学的モデルをいう。
例えば、第1600段階では、オーディオ信号を、第1変換方式に該当するMDCTによって、周波数ドメインに変換して実数部で表現し、第1605段階では、オーディオ信号を、第2変換方式に該当するMDSTによって、周波数ドメインに変換して虚数部で表現できる。ここで、MDCTによって変換されて実数部で表現された信号は、オーディオ信号の符号化に使われ、MDSTによって変換されて虚数部で表現された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用される。これによって、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを遂行した後、MDCTの係数を量子化することによって、発生するミスマッチを解決できる。
第1600段階で変換された信号から、既設定の基準によって、第1605段階で変換された信号を利用し、重要な周波数成分であると判断される周波数成分を検出できる(第1610段階)。第1610段階で、重要な周波数成分を検出するにおいて、次のような方法がありうる。第一に、SMR値を計算し、マスキング閾値より大きい信号を重要な周波数成分として決定できる。第二に、所定の重み付けを考慮してスペクトルピークを抽出し、重要な周波数成分を決定できる。第三に、各サブバンド別にSNR値を計算し、SNR値が低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を、重要周波数成分として決定できる。前述の三種の方法は、それぞれ実施できるが、少なくとも一つ以上の方法を結合して組み合わせることによって、実施することができ、前述の方法は単なる例に過ぎず、前述の方法に限定して実施しなければならないというものではない。
第1610段階で検出された周波数成分と、その周波数成分の位置を示す情報とを符号化できる(第1615段階)。
第1600段階で変換された信号の各バンドでの信号に係わるエネルギー値を計算できる(第1620段階)。ここでバンドの例として、QMFの場合にバンドは、1個のサブバンド、または1個のスケールファクタ・バンドになりうる。
第1620段階で計算された各バンドのエネルギー値と、そのバンドの位置を示す情報とを符号化できる(第1625段階)。
第1610段階で検出された周波数成分が含まれた各バンドでの信号のトーナリティを計算して符号化できる(第1630段階)。しかし本発明の概念では、第1630段階を必ず含めて実施しなければならないものではない。ただし、復号化器(図示せず)で、周波数成分が作られたバンドに信号を生成するにおいて、単数の信号を利用して生成するのではなく、複数の信号を利用して単数の信号を生成する場合に、第1630段階が必要でありうる。例えば、復号化器(図示せず)で、任意に生成された信号とパッチされた信号とをいずれも利用し、周波数成分が含まれたバンドに作られる信号を生成する場合に必要でありうる。
第1615段階で符号化された周波数成分、並びにその周波数成分の位置を示す情報、第1625段階で符号化された各バンドのエネルギー値、並びにそのバンドの位置を示す情報を含んで多重化することによって、ビットストリームを生成できる(第1635段階)。所定の場合、第1635段階では、第1630段階で符号化されたトーナリティも含んで多重化できる。
図17は、本発明の概念によるオーディオ信号の復号化方法に係わる一実施形態を図示したフローチャートである。
まず、符号化端からビットストリームを入力され、逆多重化する(第1700段階)。例えば、周波数成分、並びにその周波数成分の位置を示す情報、各バンドのエネルギー値、符号化器(図示せず)でエネルギー値が符号化されたバンドの位置及びトーナリティなどを、第1700段階で逆多重化できる。
符号化器(図示せず)で既設定の基準によって、重要な周波数成分であると判断されて符号化された所定の周波数成分を復号化できる(第1705段階)。
各バンドでの信号のエネルギー値を復号化できる(第1710段階)。
第1705段階で復号化された周波数成分が含まれたバンドでの信号に係わるトーナリティを復号化できる(第1713段階)。しかし本発明の概念では、第1713段階を必ず含めて実施しなければならないものではない。ただし、第1715段階で、単数の信号を利用して生成するのではなく、複数の信号を利用して単数の信号を生成する場合に、第1713段階が必要でありうる。例えば、第1715段階で、任意に生成された信号とパッチされた信号とをいずれも利用し、第1705段階で復号化された周波数成分が含まれたバンドに作られる信号を生成する場合に必要でありうる。もし本発明の概念で、第1713段階を含んで実施する場合、第1720段階は、第1713段階で復号化されたトーナリティまで考慮し、第1715段階で生成された信号を調節できる。
第1710段階で復号化された各バンドのエネルギー値を有する信号を各バンドに生成できる(第1715段階)。
ここで、第1715段階で各バンドに信号を生成する方法として、次に述べる例がありうる。第一に、第1715段階では、任意にノイズ信号を生成しうる。例えば、ランダムノイズ信号がある。第二に、信号生成部215は、所定のバンドでの信号が、既設定の周波数より大きい領域に該当する高周波数信号であり、既設定の周波数より小さい領域に該当する低周波数信号が、すでに復号化されて利用されうるならば、低周波数信号をコピーして、信号を生成しうる。例えば、低周波数信号をパッチしたりフォールディングして、信号を生成しうる。
第1705段階で復号化した周波数成分が含まれたバンドであるか否かを判断できる(第1718段階)。
もし第1718段階で、周波数成分が含まれたバンドであると判断されれば、第1715段階で生成された信号のうち、周波数成分が含まれたバンドでの信号を調節できる(第1720段階)。第1720段階では、第1710段階で復号化された各バンドのエネルギー値を基に、第1705段階で復号化された周波数成分のエネルギー値を考慮し、第1720段階で生成された信号のエネルギーが調節されるように、第1720段階で生成された信号を調節できる。第1720段階に係わるさらに詳細な一実施形態は、図28の説明と共に後述する。
しかし、もし第1718段階で、周波数成分が含まれていないバンドであると判断されれば、第1715段階で生成された信号のうち、周波数成分が含まれていないバンドでの信号を調節しないこともある。
第1705段階で復号化された周波数成分が含まれたバンドに係わり、第1705段階で復号化された周波数成分と、第1720段階で調節された信号とを合成して作り、第1705段階で復号化された周波数成分が含まれていないバンドに係わり、第1715段階で生成された信号で作ることができる(第1725段階)。
図16の第1600段階で遂行する変換の逆過程であり、第1725段階で作られた信号を、既設定の第1逆変換方式で、周波数ドメインから時間ドメインに変換できる(第1730段階)。第1逆変換方式の例として、IMDCTがある。
図18は、本発明の概念によるオーディオ信号の符号化方法に係わる一実施形態を図示したフローチャートである。
まず、入力されたオーディオ信号を、既設定の第1変換方式で、時間ドメインから周波数ドメインに変換できる(第1800段階)。ここで、オーディオ信号の例として、音声信号または音楽信号などがある。
心理音響モデルを適用するために、第1変換方式以外の他の既設定の方式である第2変換方式でも、入力されたオーディオ信号を、時間ドメインから周波数ドメインに変換できる(第1805段階)。
第1800段階で変換された信号は、オーディオ信号の符号化に利用され、第1805段階で変換された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。ここで、心理音響モデルは、ヒューマン聴覚システムの遮蔽作用に係わる数学的モデルをいう。
例えば、第1800段階では、オーディオ信号を、第1変換方式に該当するMDCTによって、周波数ドメインに変換して実数部で表現し、第1805段階では、オーディオ信号を、第2変換方式に該当するMDSTによって、周波数ドメインに変換して虚数部で表現できる。ここで、MDCTによって変換されて実数部で表現された信号は、オーディオ信号の符号化に使われ、MDSTによって変換されて虚数部で表現された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用される。これによって、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを遂行した後、MDCTの係数を量子化することによって、発生するミスマッチを解決できる。
第1800段階で変換された信号から、既設定の基準によって、第1805段階で変換された信号を利用し、重要な周波数成分であると判断される周波数成分を検出できる(第1810段階)。第1810段階で、重要な周波数成分を検出するにおいて、次のような方法がありうる。第一に、SMR値を計算し、マスキング閾値より大きい信号を重要な周波数成分として決定できる。第二に、所定の重み付けを考慮してスペクトルピークを抽出し、重要な周波数成分を決定できる。第三に、各サブバンド別にSNR値を計算し、SNR値が低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を、重要周波数成分として決定できる。前述の三種の方法は、それぞれ実施できるが、少なくとも一つ以上の方法を結合して組み合わせることによって、実施することができ、前述の方法は単なる例に過ぎず、前述の方法に限定して実施しなければならないというものではない。
第1810段階で検出された周波数成分と、その周波数成分の位置を示す情報とを符号化できる(第1815段階)。
第1800段階で変換された信号の包絡線を抽出できる(第1820段階)。第1820段階で抽出した包絡線を符号化できる(第1825段階)。第1815段階で符号化された周波数成分、並びにその周波数成分の位置を示す情報、第1825段階で符号化された包絡線を含んで多重化することによって、ビットストリームを生成できる(第1830段階)。
図19は、本発明の概念によるオーディオ信号の復号化方法に係わる一実施形態を図示したフローチャートである。まず、符号化端からビットストリームを入力され、逆多重化できる(第1900段階)。例えば、周波数成分、並びにその周波数成分の位置を示す情報、符号化器(図示せず)で符号化された包絡線などを、第1900段階で逆多重化できる。
符号化器(図示せず)で既設定の基準によって、重要な周波数成分であると判断されて符号化された所定の周波数成分を復号化できる(第1905段階)。符号化器(図示せず)で符号化された包絡線を復号化できる(第1910段階)。第1905段階で復号化された各周波数成分のエネルギー値を計算できる(第1915段階)。第1905段階で復号化した周波数成分が含まれたバンドであるか否かを判断できる(第1918段階)。
もし第1918段階で、周波数成分が含まれたバンドであると判断されれば、第1910段階で復号化された包絡線のうち、第1905段階で復号化された周波数成分が含まれたバンドでの信号を調節できる(第1920段階)。ここで、第1920段階では、第1910段階で復号化された各バンドに作られた包絡線のエネルギー値が、第1905段階で復号化された周波数成分が含まれた各バンドに作られた包絡線のエネルギー値から、当該バンドに含まれた周波数成分のエネルギー値を減算した値になるように、当該バンドに作られた包絡線を調節できる。
もし第1918段階で、周波数成分が含まれていないバンドであると判断されれば、第1915段階で復号化された包絡線のうち、第1905段階で復号化された周波数成分が含まれていないバンドでの信号を調節しないこともある。
第1905段階で復号化された周波数成分が含まれたバンドに係わり、第1905段階で復号化された周波数成分と、第1920段階で調節された包絡線とを合成して作り、第1905段階で復号化された周波数成分が含まれていないバンドに係わり、第1910段階で復号化された信号で作ることができる(第1925段階)。
図18の第1800段階で遂行する変換の逆過程であり、第1925段階で作られた信号を、既設定の第1逆変換方式で、周波数ドメインから時間ドメインに変換できる(第1930段階)。第1逆変換方式の例として、IMDCTがある。
図20は、本発明の概念によるオーディオ信号の符号化方法に係わる一実施形態を図示したフローチャートである。
まず、入力されたオーディオ信号を、既設定の第1変換方式で、時間ドメインから周波数ドメインに変換できる(第2000段階)。ここで、オーディオ信号の例として、音声信号または音楽信号などがある。
心理音響モデルを適用するために、第1変換方式以外の他の既設定の方式である第2変換方式でも、入力されたオーディオ信号を、時間ドメインから周波数ドメインに変換できる(第2005段階)。
第2000段階で変換された信号は、オーディオ信号の符号化に利用され、第2005段階で変換された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。ここで、心理音響モデルは、ヒューマン聴覚システムの遮蔽作用に係わる数学的モデルをいう。
例えば、第2000段階では、オーディオ信号を、第1変換方式に該当するMDCTによって、周波数ドメインに変換して実数部で表現し、第2005段階では、オーディオ信号を、第2変換方式に該当するMDSTによって、周波数ドメインに変換して虚数部で表現できる。ここで、MDCTによって変換されて実数部で表現された信号は、オーディオ信号の符号化に使われ、MDSTによって変換されて虚数部で表現された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。これによって、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを遂行した後、MDCTの係数を量子化することによって、発生するミスマッチを解決できる。
第2000段階で変換された信号から、既設定の基準によって、第2005段階で変換された信号を利用し、重要な周波数成分であると判断される周波数成分を検出できる(第2010段階)。第2010段階で重要な周波数成分を検出するにおいて、次のような方法がありうる。第一に、SMR値を計算し、マスキング閾値より大きい信号を重要な周波数成分として決定できる。第二に、所定の重み付けを考慮してスペクトルピークを抽出し、重要な周波数成分を決定できる。第三に、各サブバンド別にSNR値を計算し、SNR値が低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を、重要周波数成分として決定できる。前述の三種の方法は、それぞれ実施できるが、少なくとも一つ以上の方法を結合して組み合わせることによって、実施することができ、前述の方法は単なる例に過ぎず、前述の方法に限定して実施しなければならないというものではない。
第2010段階で検出された周波数成分と、その周波数成分の位置を示す情報とを符号化できる(第2015段階)。
入力されたオーディオ信号を、分析フィルタバンクによって所定の周波数バンド別に時間ドメインによって示すように、ドメインを変換できる(第2030段階)。例えば、第2030段階では、QMFを適用してドメインを変換する。
既設定の周波数より小さい領域に該当する低周波数信号を利用し、第2030段階で検出された周波数成分が含まれていないバンドのうち、既設定の周波数より大きい領域に該当する第2030段階で変換された信号を符号化できる(第2035段階)。第2035段階で符号化するにおいて、低周波数信号を利用し、既設定の周波数より大きい領域に該当する所定バンドの信号を復号化できる情報を生成して符号化できる。
第2015段階で符号化された周波数成分が含まれたバンド、または既設定の第1周波数より小さい領域に該当するバンドでの信号のエネルギー値を計算できる(第2036段階)。ここでバンドの例として、QMFの場合にバンドは、1個のサブバンド、または1個のスケールファクタ・バンドになりうる。
第2036段階で計算された各バンドのエネルギー値と、そのバンドの位置を示す情報とを符号化できる(第2037段階)。
第2010段階で検出された周波数成分が含まれたバンドに作られた、第2000段階で変換された信号に対する各トーナリティを計算して符号化できる(第2040段階)。しかし本発明の概念では、第2040段階を必ず含めて実施しなければならないものではない。ただし、復号化器(図示せず)で、周波数成分が作られたバンドに信号を生成するにおいて、単数の信号を利用して生成するのではなく、複数の信号を利用して単数の信号を生成する場合に、第2040段階が必要でありうる。例えば、復号化器(図示せず)で、任意に生成された信号とパッチされた信号とをいずれも利用し、周波数成分が含まれたバンドに作られる信号を生成する場合に必要でありうる。
第2015段階で符号化された周波数成分、並びにその周波数成分の位置を示す情報、第2037段階で符号化された各バンドのエネルギー値、並びにそのバンドの位置を示す情報、及び第2035段階で低周波数信号を利用し、既設定の周波数より大きい領域に該当するバンドのうち、周波数成分を含まないバンドでの信号を復号化できる情報を含んで多重化することによって、ビットストリームを出力できる(第2045段階)。所定の場合、第2045段階では、第2040段階で符号化されたトーナリティも含んで多重化できる。
図21は、本発明の概念によるオーディオ信号の復号化方法に係わる一実施形態を図示したフローチャートである。
まず、符号化端からビットストリームを入力され、逆多重化できる(第2100段階)。例えば、周波数成分、並びにその周波数成分の位置を示す情報、各バンドのエネルギー値、符号化器(図示せず)でエネルギー値が符号化されたバンドの位置、既設定の周波数より小さい領域に該当する信号を利用し、既設定の周波数より大きい領域に該当するバンドのうち、周波数成分を含まないバンドでの信号を復号化できる情報、及びトーナリティなどを、第2100段階で逆多重化できる。
符号化器(図示せず)で既設定の基準によって、重要な周波数成分であると判断されて符号化された所定の周波数成分を復号化できる(第2105段階)。
図20の第2000段階で遂行する変換の逆過程であり、第2105段階複合化された周波数信号を、既設定の第1逆変換方式で、周波数ドメインから時間ドメインに変換できる(第2106段階)。第1逆変換方式の例として、IMDCTがある。
分析フィルタバンクによって、第2106段階で逆変換された信号を、所定の周波数バンド別に時間ドメインによって示すように、ドメインを変換する(第2107段階)。例えば、第2106段階では、QMFを適用してドメインを変換する。
第2105段階で適用されるフレームと、第2145段階で適用されるフレームとが互いに一致するか否かを判断できる(第2108段階)。
もし第2105段階で適用されるフレームと、後述する第2145段階で適用されるフレームとが互いに一致しないと第2108段階で判断されれば、第2105段階で適用されるフレームと、第2145段階で適用されるフレームとを同期化できる(第2109段階)。ここで、第2109段階では、第2105段階で適用されるフレームを基に、第2145段階で適用されるフレームのうち、全部または一部を処理することが望ましい。
第2105段階で復号化された周波数成分が含まれたバンド、または既設定の周波数より小さい領域に該当するバンドの信号に係わるエネルギー値を復号化できる(第2110段階)。
第2105段階で復号化された周波数成分が含まれたバンドでの信号のトーナリティを復号化できる(第2113段階)。しかし本発明の概念では、第2113段階を必ず含めて実施しなければならないものではない。ただし、後述する第2115段階で、単数の信号を利用して生成するのではなく、複数の信号を利用して単数の信号を生成する場合に、第2113段階が必要でありうる。例えば、第2115段階で、任意に生成された信号とパッチされた信号とをいずれも利用し、第2105段階で復号化された周波数成分が含まれたバンドに作られる信号を生成する場合に必要でありうる。もし本発明の概念で、第2113段階を含んで実施する場合、後述する第2120段階では、第2113段階で復号化されたトーナリティまで考慮し、第2115段階で生成された信号を調節できる。
第2110段階で復号化された周波数成分が含まれたバンド、または既設定の周波数より小さい領域に該当するバンドのエネルギー値を有する各バンドでの信号を生成できる(第2115段階)。
ここで、第2115段階で信号を生成する方法として、次に述べる例がありうる。第一に、第2115段階では、任意にノイズ信号を生成しうる。例えば、ランダムノイズ信号がある。第二に、第2113段階では、所定のバンドでの信号が、既設定の周波数より大きい領域に該当する高周波数信号であり、既設定の周波数より小さい領域に該当する低周波数信号が、すでに復号化されて利用されうるならば、低周波数信号をコピーして、信号を生成しうる。例えば、低周波数信号をパッチしたりフォールディングして、当該バンドの信号を生成しうる。
第2105段階で復号化した周波数成分が含まれたバンドであるか否かを判断できる(第2118段階)。
もし第2118段階で、周波数成分が含まれたバンドであると判断されれば、第2115段階で生成された信号のうち、第2105段階で復号化された周波数成分が含まれたバンドでの信号を調節できる(第2120段階)。第2120段階では、第2110段階で復号化された各バンドのエネルギー値を基に、第2105段階で復号化された周波数成分のエネルギー値を考慮し、第2120段階で生成された信号のエネルギーが調節されるように、第2120段階で生成された信号を調節できる。第2020段階に係わるさらに詳細な一実施形態は、図28の説明と共に後述する。
しかし、もし第2118段階で、周波数成分が含まれていないバンドであると判断されれば、周波数成分が含まれていないバンドに作られた、第2115段階で生成された信号を調節しないこともある。
第2105段階で復号化された周波数成分が含まれたバンドに係わり、第2105段階で復号化された周波数成分と、第2120段階で調節された信号とを合成して作り、第2105段階で復号化された周波数成分が含まれていないバンドのうち、既設定の周波数より小さい領域に該当するバンドに係わり、第2115段階で生成された信号で作ることができる(第2125段階)。
既設定の周波数より大きい領域に該当するバンドに係わり、第2105段階で復号化した周波数成分が含まれたバンドであるか否かを判断できる(第2143段階)。
もし第2143段階で、周波数成分が含まれたバンドであると判断されれば、第2135段階で変換された信号のうち、既設定の周波数より小さい領域に該当する信号を利用し、既設定の周波数より大きい領域に該当するバンドのうち、第2135段階で復号化された周波数成分が含まれていないバンドでの信号を復号化できる(第2145段階)。第2145段階で復号化するにおいて、第2100段階で逆多重化された既設定の周波数より小さい領域に該当する信号を利用し、既設定の周波数より大きい領域に該当する信号を復号化できる情報を利用できる。
第2135段階で遂行する変換の逆過程であり、第2145段階で復号化された信号のドメインを、合成フィルタバンクを介して逆変換できる(第2150段階)。
第2130段階で逆変換された信号と、第2150段階で逆変換された信号とを合成できる(第2155段階)。第2130段階で逆変換された信号は、第2105段階で復号化された周波数成分が含まれたバンドでの信号と、第2105段階で復号化された周波数成分が含まれていないバンドのうち、既設定の周波数より小さい領域に該当するバンドでの信号とでありうる。また、第2150段階で逆変換された信号は、第2105段階で復号化された周波数成分が含まれていないバンドのうち、既設定の周波数より大きい領域に該当するバンドでの信号でありうる。これによって、周波数全領域に係わるオーディオ信号を第2155段階では合成し、オーディオ信号を復元できる。
図22は、本発明の概念によるオーディオ信号の符号化方法に係わる一実施形態を図示したフローチャートである。
まず、入力されたオーディオ信号を、既設定の第1変換方式で、時間ドメインから周波数ドメインに変換できる(第2200段階)。ここで、オーディオ信号の例として、音声信号または音楽信号などがある。
心理音響モデルを適用するために、第1変換方式以外の他の既設定の方式である第2変換方式でも、入力されたオーディオ信号を、時間ドメインから周波数ドメインに変換できる(第2205段階)。
第2200段階で変換された信号は、オーディオ信号の符号化に利用され、第2205段階で変換された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。ここで、心理音響モデルは、ヒューマン聴覚システムの遮蔽作用に係わる数学的モデルをいう。
例えば、第2200段階では、オーディオ信号を、第1変換方式に該当するMDCTによって、周波数ドメインに変換して実数部で表現し、第2205段階では、オーディオ信号を、第2変換方式に該当するMDSTによって、周波数ドメインに変換して虚数部で表現できる。ここで、MDCTによって変換されて実数部で表現された信号は、オーディオ信号の符号化に使われ、MDSTによって変換されて虚数部で表現された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用される。これによって、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを遂行した後、MDCTの係数を量子化することによって、発生するミスマッチを解決できる。
第2200段階で変換されたオーディオ信号から、既設定の基準によって、第2205段階で変換された信号を利用し、重要な周波数成分であると判断される周波数成分を検出できる(第2210段階)。第2210段階で重要な周波数成分を検出するにおいて、次のような方法がありうる。第一に、SMR値を計算し、マスキング閾値より大きい信号を重要な周波数成分として決定できる。第二に、所定の重み付けを考慮してスペクトルピークを抽出し、重要な周波数成分を決定できる。第三に、各サブバンド別にSNR値を計算し、SNR値が低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を、重要周波数成分として決定できる。前述の三種の方法は、それぞれ実施できるが、少なくとも一つ以上の方法を結合して組み合わせることによって、実施することができ、前述の方法は単なる例に過ぎず、前述の方法に限定して実施しなければならないというものではない。
第2210段階で検出された周波数成分と、その周波数成分の位置を示す情報とを符号化できる(第2215段階)。
入力されたオーディオ信号を、分析フィルタバンクによって所定の周波数バンド別に時間ドメインによって示すように、ドメインを変換できる(第2218段階)。例えば、第2230段階では、QMFを適用してドメインを変換できる。
既設定の周波数より小さい領域に該当するバンドでの信号のエネルギー値を計算できる(第2220段階)。ここでバンドの例として、QMFの場合にバンドは、1個のサブバンド、または1個のスケールファクタ・バンドになりうる。
第2220段階で計算された各バンドのエネルギー値と、そのバンドの位置を示す情報とを符号化できる(第2225段階)。
既設定の周波数より小さい領域に該当する低周波数信号を利用し、既設定の周波数より大きい領域に該当する高周波数信号を符号化できる(第2235段階)。第2235段階で符号化するにおいて、低周波数信号を利用して高周波数信号を復号化できる情報を生成して符号化できる。
第2215段階で検出された周波数成分が含まれたバンドでの信号の各トーナリティを計算して符号化できる(第2240段階)。しかし本発明の概念では、第2240段階を必ず含めて実施しなければならないものではない。ただし、復号化器(図示せず)で、周波数成分が作られたバンドに信号を生成するにおいて、単数の信号を利用して生成するのではなく、複数の信号を利用して単数の信号を生成する場合に、第2240段階が必要でありうる。例えば、復号化器(図示せず)で、任意に生成された信号とパッチされた信号とをいずれも利用し、周波数成分が含まれたバンドに作られる信号を生成する場合に必要でありうる。
第2215段階で符号化された周波数成分、並びに周波数成分の位置を示す情報、第2225段階で符号化された各バンドのエネルギー値、並びにそのバンドの位置を示す情報、及び第2235段階で、低周波数信号を利用して高周波数信号を復号化できる情報を含んで多重化することによって、ビットストリームを生成できる(第2245段階)。所定の場合、第2245段階では、第2240段階で符号化されたトーナリティも含んで多重化できる。
図23は、本発明の概念によるオーディオ信号の復号化方法に係わる一実施形態を図示したフローチャートである。
まず、符号化端からビットストリームを入力され、逆多重化できる(第2300段階)。例えば、周波数成分、並びに周波数成分の位置を示す情報、各バンドのエネルギー値、符号化器(図示せず)でエネルギー値が符号化されたバンドの位置、既設定の周波数より小さい領域に該当する信号を利用し、既設定の周波数より大きい領域に該当する信号を復号化できる情報、及びトーナリティなどを、第2300段階で逆多重化できる。
符号化器(図示せず)で、既設定の周波数より小さい領域に該当する低周波数信号のうち、既設定の基準によって、重要な周波数成分であると判断されて符号化された所定の周波数成分を復号化できる(第2305段階)。
図22の第2200段階で遂行する変換の逆過程であり、第2305段階で復元された低周波数信号を、既設定の第1逆変換方式で、周波数ドメインから時間ドメインに変換できる(第2307段階)。第1逆変換方式の例として、IMDCTがある。
第2307段階で逆変換された低周波数信号を、分析フィルタバンクによって所定の周波数バンド別に時間ドメインによって示すように、ドメインを変換できる(第2309段階)。例えば、第2309段階では、QMFを適用してドメインを変換できる。
第2305段階で適用されるフレームと、第2350段階で適用されるフレームとが互いに一致するか否かを判断できる(第2311段階)。
もし第2305段階で適用されるフレームと、後述する第2350段階で適用されるフレームとが互いに一致しないと第2311段階で判断されれば、第2305段階で適用されるフレームと、第2350段階で適用されるフレームとを同期化できる(第2313段階)。ここで、第2313段階では、第2305段階で適用されるフレームを基に、第2350段階で適用されるフレームのうち、全部または一部を処理することが望ましい。
周波数信号の各バンドに係わるエネルギー値を復号化できる(第2314段階)。
既設定の周波数より小さい領域に該当するバンドのうち、第2305段階で復号化された周波数成分が含まれたバンドでの信号に係わるトーナリティを復号化できる(第2315段階)。しかし本発明の概念では、第2315段階を必ず含めて実施しなければならないものではない。ただし、後述する第2320段階で、単数の信号を利用して生成するのではなく、複数の信号を利用して単数の信号を生成する場合に、第2315段階が必要でありうる。例えば、第2320段階で、任意に生成された信号とパッチされた信号とをいずれも利用し、第2305段階で復号化された周波数成分が含まれたバンドに作られる信号を生成する場合に必要でありうる。もし本発明の概念で、第2315段階を含んで実施する場合、第2325段階は、第2315段階で復号化されたトーナリティまで考慮し、第2320段階で生成された信号を調節できる。
第2310段階で復号化されたバンドのエネルギー値を有する各バンドでの信号を生成できる(第2320段階)。
ここで、第2320段階で信号を生成する方法として、次に述べる例がありうる。第一に、第2320段階では、任意にノイズ信号を生成しうる。例えば、ランダムノイズ信号がある。第二に、信号生成部820は、所定のバンドでの信号が、すでに復号化されて利用されうるならば、関連が高い復号化されたバンドの信号をコピーして、信号を生成しうる。例えば、復号化されたバンドの信号をパッチしたりフォールディングして、信号を生成しうる。
第1周波数より小さい領域に該当するバンドのうち、第2305段階で復号化した周波数成分が含まれたバンドであるか否かを判断できる(第2323段階)。
もし第2323段階で、周波数成分が含まれたバンドであると判断されれば、当該バンドに係わり、第2320段階で生成された信号を調節できる(第2325段階)。第2325段階では、第2310段階で復号化された各バンドのエネルギー値を基に、第2305段階で復号化された周波数成分のエネルギー値を考慮し、第2320段階で生成された信号のエネルギーが調節されるように、第2320段階で生成された信号を調節できる。第2325段階に係わるさらに詳細な一実施形態は、図28の説明と共に後述する。
しかし、もし第2323段階で、周波数成分が含まれていないバンドであると判断されれば、周波数成分が含まれていないバンドに作られた、第2320段階で生成された信号を調節しないこともある。
既設定の周波数より小さい領域に該当するバンドのうち、第2305段階で復号化された周波数成分が含まれたバンドに係わり、第2305段階で復号化された周波数成分と、第2325段階で調節された信号とを合成して作り、既設定の周波数より小さい領域に該当するバンドのうち、第2305段階で復号化された周波数成分が含まれていないバンドに係わり、第2320段階で生成された信号で作ることができる(第2330段階)。これによって、第2330段階では、低周波数信号を復元できる。
既設定の周波数より大きい領域に該当する信号の高周波数信号を復号化できる(第2350段階)。第2350段階で復号化するにおいて、第2300段階で逆多重化された低周波数信号を利用し、高周波数信号を復号化できる情報を利用できる。
既設定の周波数より大きい領域に該当するバンドに係わり、復号化した周波数成分が含まれたバンドであるか否かを判断できる(第2353段階)。
もし第2353段階で、周波数成分が含まれたバンドであると判断されれば、第2350段階で復号化された高周波数信号のうち、復号化された周波数成分が含まれたバンドでの信号を調節できる(第2355段階)。
まず、第2355段階では、既設定の周波数より大きい領域に作られた周波数成分のエネルギー値を計算できる。そして、第2355段階で調節するバンドでの信号に係わるエネルギーが、第2350段階で復号化された信号のエネルギー値から、各バンドに含まれた周波数成分のエネルギー値を減算した値になるように、第2350段階で復号化された当該バンドに作られた高周波数信号を調節できる。
既設定の周波数より大きい領域に該当するバンドのうち、第2305段階で復号化された周波数成分が含まれたバンドに係わり、第2305段階で復号化された周波数成分と、第2355段階で調節された信号とを合成して作り、既設定の周波数より大きい領域に該当するバンドのうち、第2305段階で復号化された周波数成分が含まれていないバンドに係わり、第2350段階で復号化された信号で作ることができる(第2360段階)。これによって、第2360段階では、高周波数信号を復元できる。
第2340段階で遂行する変換の逆過程であり、復元された高周波数信号のドメインを、合成フィルタバンクを介して逆変換できる(第2365段階)。第2335段階で逆変換された低周波数信号と、第2365段階で逆変換された高周波数信号とを合成し、オーディオ信号を復元できる(第2370段階)。
図24は、本発明の概念によるオーディオ信号の符号化方法に係わる一実施形態を図示したフローチャートである。まず、既設定の周波数を基準として、入力された信号を、低周波数信号と高周波数信号とに分割できる(第2400段階)。ここで、低周波数信号は、既設定の第1周波数より小さい領域に該当する信号であって、高周波数信号は、既設定の第2周波数より大きい領域に該当する信号でありうる。第1周波数と第2周波数は、互いに同じ値に設定されることが望ましいが、必ずしも同じ値に設定して実施しなければならないというものではない。
第2400段階で分割された低周波数信号を、既設定の第1変換方式で、時間ドメインから周波数ドメインに変換できる(第2403段階)。
心理音響モデルを適用するために、第1変換方式以外の他の既設定の方式である第2変換方式でも、第2400段階で分割された低周波数信号を、時間ドメインから周波数ドメインに変換できる(第2405段階)。
第2403段階で変換された信号は、低周波数信号を符号化するのに利用され、第2405段階で変換された信号は、低周波数信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。ここで、心理音響モデルは、ヒューマン聴覚システムの遮蔽作用に係わる数学的モデルをいう。
例えば、第2403段階では、低周波数信号を、第1変換方式に該当するMDCTによって、周波数ドメインに変換して実数部で表現し、第2405段階では、低周波数信号を、第2変換方式に該当するMDSTによって、周波数ドメインに変換して虚数部で表現できる。ここで、MDCTによって変換されて実数部で表現された信号は、低周波数信号を符号化するのに使われ、MDSTによって変換されて虚数部で表現された信号は、低周波数信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。これによって、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを遂行した後、MDCTの係数を量子化することによって、発生するミスマッチを解決できる。
第2403段階で変換された低周波数信号から、既設定の基準によって、第2405段階で変換された信号を利用し、重要な周波数成分であると判断される周波数成分を検出できる(第2410段階)。第2410段階で重要な周波数成分を検出するにおいて、次のような方法がありうる。第一に、SMR値を計算し、マスキング閾値より大きい信号を重要な周波数成分として決定できる。第二に、所定の重み付けを考慮してスペクトルピークを抽出し、重要な周波数成分を決定できる。第三に、各サブバンド別にSNR値を計算し、SNR値が低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を、重要周波数成分として決定できる。前述の三種の方法は、それぞれ実施できるが、少なくとも一つ以上の方法を結合して組み合わせることによって、実施することができ、前述の方法は単なる例に過ぎず、前述の方法に限定して実施しなければならないというものではない。
第2410段階で検出された第2403段階で変換された低周波数信号の周波数成分と、その周波数成分の位置を示す情報とを符号化できる(第2415段階)。
第2400段階で分割された高周波数信号を、分析フィルタバンクによって所定の周波数バンド別に時間ドメインによって示すように、ドメインを変換できる(第2418段階)。例えば、第2418段階では、QMFを適用してドメインを変換できる。
第2403段階で変換された低周波数信号の各バンドでの信号に係わるエネルギー値を計算できる(第2420段階)。ここでバンドの例として、QMFの場合にバンドは、1個のサブバンド、または1個のスケールファクタ・バンドになりうる。
第2420段階で計算された各バンドのエネルギー値と、そのバンドの位置を示す情報とを符号化できる(第2425段階)。
第2410段階で検出された周波数成分が含まれたバンドでの信号に対する各トーナリティを計算して符号化できる(第2430段階)。しかし本発明の概念では、第2430段階を必ず含めて実施しなければならないものではない。ただし、復号化器(図示せず)で、周波数成分が作られたバンドに信号を生成するにおいて、単数の信号を利用して生成するのではなく、複数の信号を利用して単数の信号を生成する場合に、第2430段階が必要でありうる。例えば、復号化器(図示せず)で、任意に生成された信号とパッチされた信号とをいずれも利用し、周波数成分が含まれたバンドに作られる信号を生成する場合に必要でありうる。
低周波数信号を利用し、第2430段階で変換された高周波数信号を符号化できる(第2440段階)。第2440段階で符号化するにおいて、低周波数信号を利用して高周波数信号を復号化できる情報を生成して符号化できる。
第2415段階で符号化された周波数成分、並びにその周波数成分の位置を示す情報、第2425段階で符号化された各バンドのエネルギー値、並びにそのバンドの位置を示す情報、及び第2440段階で符号化された低周波数信号を利用して高周波数信号を符号化する情報を含んで多重化することによって、ビットストリームを出力できる(第2445段階)。所定の場合、第2445段階では、第2430段階で符号化されたトーナリティも含んで多重化できる。
図25は、本発明の概念によるオーディオ信号の復号化方法に係わる一実施形態を図示したフローチャートである。まず、符号化端からビットストリームを入力され、逆多重化できる(第2500段階)。例えば、周波数成分、並びにその周波数成分の位置を示す情報、各バンドのエネルギー値、符号化器(図示せず)でエネルギー値が符号化されたバンドの位置、低周波数信号を利用して高周波数信号を符号化する情報、及びトーナリティなどを、第2500段階で逆多重化できる。ここで、低周波数信号は、既設定の第1周波数より小さい領域に該当する信号であって、高周波数信号は、既設定の第2周波数より大きい領域に該当する信号でありうる。第1周波数と第2周波数は、互いに同じ値に設定されることが望ましいが、必ずしも同じ値に設定して実施しなければならないというものではない。
符号化器(図示せず)で既設定の基準によって、低周波数信号から重要な周波数成分であると判断されて符号化された所定の周波数成分を復号化できる(第2505段階)。
既設定の周波数より小さい領域に該当するバンドに作られた各バンド別信号のエネルギー値を復号化できる(第2510段階)。
第2510段階で復号化された各バンドのエネルギー値を有する信号をバンド別に生成できる(第2515段階)。
ここで、第2515段階で信号を生成する方法として、次に述べる例がありうる。第一に、第2515段階では、任意にノイズ信号を生成しうる。例えば、ランダムノイズ信号がある。第二に、第2515段階では、所定のバンドでの信号が、高周波数領域に該当する信号であり、低周波数領域に該当する信号が、すでに復号化されて利用されうるならば、低周波数領域に該当する信号をコピーして、信号を生成しうる。例えば、低周波数領域に該当する信号をパッチしたりフォールディングして、信号を生成しうる。
既設定の周波数より小さい領域に該当するバンドのうち、第2505段階で復号化した周波数成分が含まれたバンドであるか否かを判断できる(第2518段階)。
もし第2518段階で、周波数成分が含まれたバンドであると判断されれば、当該バンドに係わり、第2515段階で生成された信号を調節できる(第2520段階)。第2520段階では、第2510段階で復号化された各バンドのエネルギー値を基に、第2505段階で復号化された周波数成分のエネルギー値を考慮し、第2515段階で生成された信号のエネルギーが調節されるように、第2515段階で生成された信号を調節できる。第2520段階に係わるさらに詳細な一実施形態は、図28の説明と共に後述する。
もし第2518段階で、周波数成分が含まれていないバンドであると判断されれば、当該バンドに作られた、第2515段階で生成された信号を調節しないこともある。
既設定の周波数より小さい領域に該当するバンドのうち、第2505段階で復号化された周波数成分が含まれたバンドに係わり、第2505段階で復号化された周波数成分と、第2520段階で調節された信号とを合成して作り、既設定の周波数より小さい領域に該当するバンドのうち、第2505段階で復号化された周波数成分が含まれていないバンドに係わり、第2515段階で生成された信号で作ることができる(第2525段階)。これによって、第2525段階では、低周波数信号を復元できる。
図24の第2403段階で遂行する変換の逆過程であり、第2525段階で作られた信号を、既設定の第1逆変換方式で、周波数ドメインから時間ドメインに変換できる(第2530段階)。第1逆変換方式の例として、IMDCTがある。
分析フィルタバンクによって、第2530段階で逆変換された低周波数信号を、所定の周波数バンド別に時間ドメインによって示すように、ドメインを変換できる(第2535段階)。例えば、第2535段階では、QMFを適用してドメインを変換できる。
第2505段階で適用されるフレームと、後述する第2545段階で適用されるフレームとが互いに一致するか否かを判断できる(第2538段階)。
もし第2505段階で適用されるフレームと、第2545段階で適用されるフレームとが互いに一致しないと第2538段階で判断されれば、第2505段階で適用されるフレームと、第2545段階で適用されるフレームとを同期化できる(第2540段階)。第2540段階は、第2505段階で適用されるフレームを基に、第2545段階で適用されるフレームのうち、全部または一部を処理することが望ましい。
第2535段階で変換された低周波数信号を利用して高周波数信号を復号化できる(第2545段階)。第2545段階で復号化するにおいて、第2500段階で逆多重化された低周波数信号を利用して高周波数信号を復号化できる情報を利用できる。
第2535段階で遂行する変換の逆過程であり、第2545段階で復号化された高周波数信号のドメインを、合成フィルタバンクを介して逆変換できる(第2550段階)。
第2530段階で逆変換された低周波数信号と、第2550段階で逆変換された高周波数信号とを合成し、オーディオ信号を復元できる(第2555段階)。
図26は、本発明の概念によるオーディオ信号の符号化方法に係わる一実施形態を図示したフローチャートである。まず、既設定の周波数を基準として、入力端子INを介して入力された信号を、低周波数信号と高周波数信号とに分割できる(第2600段階)。ここで、低周波数信号は、既設定の第1周波数より小さい領域に該当する信号であって、高周波数信号は、既設定の第2周波数より大きい領域に該当する信号でありうる。第1周波数と第2周波数は、互いに同じ値に設定されることが望ましいが、必ずしも同じ値に設定して実施しなければならないというものではない。
第2600段階で分割された低周波数信号を、既設定の第1変換方式で、時間ドメインから周波数ドメインに変換できる(第2603段階)。
心理音響モデルを適用するために、第1変換方式以外の他の既設定の方式である第2変換方式でも第2600段階で分割された低周波数信号を、時間ドメインから周波数ドメインに変換できる(第2605段階)。
第2603段階で変換された信号は、低周波数信号を符号化するのに利用され、第2605段階で変換された信号は、低周波数信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用されうる。ここで、心理音響モデルは、ヒューマン聴覚システムの遮蔽作用に係わる数学的モデルをいう。
例えば、第2603段階では、低周波数信号を、第1変換方式に該当するMDCTによって、周波数ドメインに変換して実数部で表現し、第2605段階では、低周波数信号を、第2変換方式に該当するMDSTによって、周波数ドメインに変換して虚数部で表現できる。ここで、MDCTによって変換されて実数部で表現された信号は、低周波数信号を符号化するのに使われ、MDSTによって変換されて虚数部で表現された信号は、低周波数信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用される。これによって、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを遂行した後、MDCTの係数を量子化することによって、発生するミスマッチを解決できる。
第2603段階で変換された低周波数信号から、既設定の基準によって、第2605段階で変換された信号を利用し、重要な周波数成分であると判断される周波数成分を検出できる(第2610段階)。第2610段階で重要な周波数成分を検出するにおいて、次のような方法がありうる。第一に、SMR値を計算し、マスキング閾値より大きい信号を重要な周波数成分として決定できる。第二に、所定の重み付けを考慮してスペクトルピークを抽出し、重要な周波数成分を決定できる。第三に、各サブバンド別にSNR値を計算し、SNR値が低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を、重要周波数成分として決定できる。前述の三種の方法は、それぞれ実施できるが、少なくとも一つ以上の方法を結合して組み合わせることによって、実施することができ、前述の方法は単なる例に過ぎず、前述の方法に限定して実施しなければならないというものではない。
第2610段階で検出された低周波数信号の周波数成分と、その周波数成分の位置を示す情報とを符号化できる(第2615段階)。
第2603段階で変換された低周波数信号の包絡線を抽出できる(第2620段階)。第2620段階で抽出した低周波数信号の包絡線を符号化できる(第2625段階)。第2600段階で分割された高周波数信号を、分析フィルタバンクによって所定の周波数バンド別に時間ドメインによって示すように、ドメインを変換できる(第2630段階)。例えば、第2630段階では、QMFを適用してドメインを変換できる。
低周波数信号を利用し、第2630段階で変換された高周波数信号を符号化できる(第2635段階)。第2635段階で符号化するにおいて、低周波数信号を利用して高周波数信号を復号化できる情報を生成して符号化できる。
第2605段階で符号化された周波数成分、並びに周波数成分の位置を示す情報、第2625段階で符号化された低周波数信号の包絡線、並びに第2635段階で符号化された低周波数信号を利用して高周波数信号を復号化できる情報を含んで多重化することによって、ビットストリームを生成できる(第2640段階)。
図27は、本発明の概念によるオーディオ信号の復号化方法に係わる一実施形態を図示したフローチャートである。
まず、符号化端からビットストリームを入力され、逆多重化できる(第2700段階)。例えば、周波数成分、並びに周波数成分の位置を示す情報、符号化器(図示せず)で符号化された低周波数信号の包絡線、並びに低周波数信号を利用して高周波数信号を復号化できる情報などを、第2700段階で逆多重化できる。ここで、低周波数信号は、既設定の第1周波数より小さい領域に該当する信号であり、高周波数信号は、既設定の第2周波数より大きい領域に該当する信号をいう。第1周波数と第2周波数は、互いに同じ値に設定されることが望ましいが、必ずしも同じ値に設定して実施しなければならないというものではない。
符号化器(図示せず)で既設定の基準によって、低周波数信号から重要な周波数成分であると判断されて符号化された所定の周波数成分を復号化できる(第2705段階)。
符号化器(図示せず)で符号化された低周波数信号の包絡線を復号化できる(第2710段階)。
第2705段階で復号化された各周波数成分のエネルギー値を計算できる(第2715段階)。
既設定の周波数より小さい領域に該当するバンドのうち、第2705段階で復号化された周波数成分が含まれたバンドに該当するか否かを判断できる(第2718段階)。
もし第2718段階で、周波数成分が含まれたバンドに該当すると判断されれば、当該バンドに作られた、第2710段階で復号化された包絡線を調節できる(第2720段階)。第2720段階では、第2710段階で復号化された各バンドに作られた包絡線のエネルギー値が、第2705段階で復号化された周波数成分が含まれた各バンドに作られた、第2710段階で復号化された包絡線のエネルギー値から、そのバンドに含まれた周波数成分のエネルギー値を減算した値になるように、第2710段階で復号化された包絡線を調節できる。
もし第2718段階で、周波数成分が含まれていないバンドに該当すると判断されれば、当該バンドに作られた、第2710段階で復号化された包絡線を調節しないこともある。
既設定の周波数より小さい領域に該当するバンドのうち、第2705段階で復号化された周波数成分が含まれたバンドに係わり、第2705段階で復号化された周波数成分と、第2720段階で調節された包絡線とを合成して作り、既設定の周波数より小さい領域に該当するバンドのうち、第2705段階で復号化された周波数成分が含まれていないバンドに係わり、第2710段階で復号化された信号で作ることができる(第2725段階)。これによって、第2725段階では、低周波数信号を復元できる。
図26の第2603段階で遂行する変換の逆過程であり、第2725段階で復元された低周波数信号を、既設定の第1逆変換方式で、周波数ドメインから時間ドメインに変換できる(第2730段階)。第1逆変換方式の例として、IMDCTがある。
分析フィルタバンクによって、第2730段階で逆変換された低周波数信号を、所定の周波数バンド別に時間ドメインによって示すように、ドメインを変換できる(第2735段階)。例えば、第2735段階では、QMFを適用してドメインを変換できる。
第2705段階で適用されるフレームと、後述する第2745段階で適用されるフレームとが互いに一致するか否かを判断できる(第2738段階)。
もし第2705段階で適用されるフレームと、第2745段階で適用されるフレームとが互いに一致しないと第2738段階で判断されれば、第2705段階で適用されるフレームと、第2745段階で適用されるフレームとを同期化できる(第2740段階)。第2740段階では、第2705段階で適用されるフレームを基に、第2745段階で適用されるフレームのうち、全部または一部を処理することが望ましい。
第2735段階で変換された低周波数信号を利用して高周波数信号を復号化できる(第2745段階)。第2745段階で復号化するにおいて、第2700段階で逆多重化された低周波数信号を利用して高周波数信号を復号化できる情報を利用できる。
第2735段階で遂行する変換の逆過程であり、第2745段階で復号化された高周波数信号のドメインを、合成フィルタバンクを介して逆変換できる(第2750段階)。
第2730段階で逆変換された低周波数信号と、第2750段階で逆変換された高周波数信号とを合成し、オーディオ信号を復元できる(第2755段階)。
図28は、本発明の概念の実施形態によって、図17、図21、図23または図25に含まれた第1720段階、第2120段階、第2325段階または第2520段階に係わる一実施形態を図示したフローチャートである。
まず、第1715段階、第2115段階、第2320段階または第2515段階で、周波数成分が含まれたバンドに生成された信号を入力され、各バンドでの信号のエネルギー値を計算できる(第2800段階)。
第1705段階、第2105段階、第2305段階または第2505段階で復号化された周波数成分を入力され、各周波数成分のエネルギー値を計算できる(第2805段階)。
第1710段階、第2110段階、第2310段階または第2510段階で復号化された周波数成分が含まれたバンドのエネルギー値のゲイン値について、第2800段階で計算された各エネルギー値が、第1710段階、第2110段階、第2310段階または第2510段階で入力された各エネルギー値から、第2805段階で計算された各エネルギー値を減算した値になるように、利得値を計算できる(第2810段階)。例えば、第2810段階では、次に記載の式(2)によって利得値を計算できる。
は、第1710段階、第2110段階、第2310段階または第2510段階で復号化された各エネルギー値であり、
は、第2805段階で計算された各エネルギー値であり、
は、第2800段階で計算された各エネルギー値をいう。
もし第2810段階でトーナリティまで考慮して利得値を計算する場合、第2810段階では、第2805段階で復号化された周波数成分が含まれたバンドのエネルギー値を入力され、周波数成分が含まれたバンドでの信号に係わるトーナリティを入力され、入力された各エネルギー値、各トーナリティ、及び第2805段階で計算された各エネルギー値を利用することによって、利得値を計算できる。
第1715段階、第2115段階、第2320段階または第2515段階で、周波数成分が含まれた各バンドに生成された信号に、第2810段階で計算された各バンドに対する利得値を適用できる(第2815段階)。
図29は、本発明の概念によるオーディオ信号の符号化装置に係わる一実施形態を図示したブロック図であり、前記オーディオ信号の符号化装置は、第1変換部2900、第2変換部2905、周波数成分検出部2910、周波数成分符号化部2915、第3変換部2918、エネルギー値計算部2920、エネルギー値符号化部2925、トーナリティ符号化部2930及び多重化部2935を含んでなされる。
第1変換部2900は、入力端子INを介して入力されたオーディオ信号を、既設定の第1変換方式で、時間ドメインから周波数ドメインに変換する。ここで、オーディオ信号の例として、音声信号または音楽信号などがある。
第2変換部2905は、心理音響モデルを適用するために、第1変換方式以外の他の既設定の方式である第2変換方式でも、入力端子INを介して入力されたオーディオ信号を、時間ドメインから周波数ドメインに変換する。
第1変換部2900で変換された信号は、オーディオ信号の符号化に利用され、第2変換部2905で変換された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用される。ここで、心理音響モデルは、ヒューマン聴覚システムの遮蔽作用に係わる数学的モデルをいう。
例えば、第1変換部2900は、オーディオ信号を、第1変換方式に該当するMDCTによって、周波数ドメインに変換して実数部で表現し、第2変換部2905は、オーディオ信号を、第2変換方式に該当するMDSTによって、周波数ドメインに変換して虚数部で表現できる。ここで、MDCTによって変換されて実数部で表現された信号は、オーディオ信号の符号化に使われ、MDSTによって変換されて虚数部で表現された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用される。これによって、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを遂行した後、MDCTの係数を量子化することによって、発生するミスマッチを解決できる。
周波数成分検出部2910は、第1変換部2900で変換された信号から、既設定の基準によって、第2変換部2905で変換された信号を利用し、重要な周波数成分であると判断される周波数成分を検出する。周波数成分検出部2910で重要な周波数成分を検出するにおいて、次のような方法がある。第一に、SMR値を計算し、マスキング閾値より大きい信号を重要な周波数成分として決定する。第二に、所定の重み付けを考慮してスペクトルピークを抽出し、重要な周波数成分を決定する。第三に、各サブバンド別にSNR値を計算し、SNR値が低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を、重要周波数成分として決定する。前述の三種の方法は、それぞれ実施できるが、少なくとも一つ以上の方法を結合して組み合わせることによって、実施することができ、前述の方法は単なる例に過ぎず、前述の方法に限定して実施しなければならないというものではない。
周波数成分符号化部2915は、周波数成分検出部2910で検出された周波数成分と、その周波数成分の位置を示す情報とを符号化する。
第3変換部2918は、入力端子INを介して入力されたオーディオ信号を、分析フィルタバンクによって所定の周波数バンド別に時間ドメインによって示すように、ドメインを変換する。例えば、第3変換部530では、QMFを適用してドメインを変換する。
エネルギー値計算部2920は、第3変換部2918で変換された信号の各バンドでの信号に係わるエネルギー値を計算する。ここでバンドの例として、QMFの場合にバンドは、1個のサブバンド、または1個のスケールファクタ・バンドになりうる。
エネルギー値符号化部2925は、エネルギー値計算部2920で計算された各バンドのエネルギー値と、そのバンドの位置を示す情報とを符号化する。
トーナリティ符号化部2930は、周波数成分検出部2910で検出された周波数成分が含まれた各バンドでの信号の各トーナリティを計算して符号化する。しかし、本発明では、トーナリティ符号化部2930を必ず含めて実施しなければならないものではない。ただし、復号化器(図示せず)で、周波数成分が作られたバンドに信号を生成するにおいて、単数の信号を利用して生成するのではなく、複数の信号を利用して単数の信号を生成する場合に、トーナリティ符号化部2930が必要でありうる。例えば、復号化器(図示せず)で、任意に生成された信号とパッチされた信号とをいずれも利用し、周波数成分が含まれたバンドに作られる信号を生成する場合に必要である。
多重化部2935は、周波数成分符号化部2915で符号化された周波数成分、並びにその周波数成分の位置を示す情報、エネルギー値符号化部2925で符号化された各バンドのエネルギー値、並びに各バンドの位置を示す情報を含んで多重化し、出力端子OUTを介して、多重化されたビットストリームを出力する。所定の場合、多重化部2935は、トーナリティ符号化部2930で符号化されたトーナリティも含んで多重化できる。
図30は、本発明の概念によるオーディオ信号の符号化方法に係わる一実施形態を図示したフローチャートである。
まず、入力されたオーディオ信号を、既設定の第1変換方式で、時間ドメインから周波数ドメインに変換する(第3000段階)。ここで、オーディオ信号の例として、音声信号または音楽信号などがある。
心理音響モデルを適用するために、第1変換方式以外の他の既設定の方式である第2変換方式でも、入力されたオーディオ信号を、時間ドメインから周波数ドメインに変換する(第3005段階)。
第3000段階で変換された信号は、オーディオ信号の符号化に利用され、第3005段階で変換された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用される。ここで、心理音響モデルは、ヒューマン聴覚システムの遮蔽作用に係わる数学的モデルをいう。
例えば、第3000段階では、オーディオ信号を、第1変換方式に該当するMDCTによって、周波数ドメインに変換して実数部で表現し、第3005段階では、オーディオ信号を、第2変換方式に該当するMDSTによって、周波数ドメインに変換して虚数部で表現できる。ここで、MDCTによって変換されて実数部で表現された信号は、オーディオ信号の符号化に使われ、MDSTによって変換されて虚数部で表現された信号は、オーディオ信号に対して心理音響モデルを適用し、重要な周波数成分を検出するのに利用される。これによって、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを遂行した後、MDCTの係数を量子化することによって、発生するミスマッチを解決できる。
第3000段階で変換された信号から、既設定の基準によって、第3005段階で変換された信号を利用し、重要な周波数成分であると判断される周波数成分を検出する(第3010段階)。第3010段階で重要な周波数成分を検出するにおいて、次のような方法がある。第一に、SMR値を計算し、マスキング閾値より大きい信号を重要な周波数成分として決定する。第二に、所定の重み付けを考慮してスペクトルピークを抽出し、重要な周波数成分を決定する。第三に、各サブバンド別にSNR値を計算し、SNR値が低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を、重要周波数成分として決定する。前述の三種の方法は、それぞれ実施できるが、少なくとも一つ以上の方法を結合して組み合わせることによって、実施することができ、前述の方法は単なる例に過ぎず、前述の方法に限定して実施しなければならないというものではない。
第3010段階で検出された周波数成分と、その周波数成分の位置を示す情報とを符号化する(第3015段階)。
入力されたオーディオ信号を、分析フィルタバンクによって所定の周波数バンド別に時間ドメインによって示すように、ドメインを変換する(第3018段階)。例えば、第3018段階では、QMFを適用してドメインを変換する。
第3018段階で変換された信号の各バンドでの信号に係わるエネルギー値を計算する(第3020段階)。ここでバンドの例として、QMFの場合にバンドは、1個のサブバンド、または1個のスケールファクタ・バンドになりうる。
第3020段階で計算された各バンドのエネルギー値と、そのバンドの位置を示す情報とを符号化する(第3025段階)。
第3010段階で検出された周波数成分が含まれた各バンドでの信号のトーナリティを計算して符号化する(第3030段階)。しかし、本発明では第3030段階を必ず含めて実施しなければならないものではない。ただし、復号化器(図示せず)で、周波数成分が作られたバンドに信号を生成するにおいて、単数の信号を利用して生成するのではなく、複数の信号を利用して単数の信号を生成する場合に、第3030段階が必要でありうる。例えば、復号化器(図示せず)で、任意に生成された信号とパッチされた信号とをいずれも利用し、周波数成分が含まれたバンドに作られる信号を生成する場合に必要である。
第3015段階で符号化された周波数成分、並びにその周波数成分の位置を示す情報、第3025段階で符号化された各バンドのエネルギー値、並びにそのバンドの位置を示す情報を含んで多重化することによって、ビットストリームを生成する(第3035段階)。所定の場合、第3035段階では、第3030段階で符号化されたトーナリティも含んで多重化できる。
本発明の概念は、コンピュータで読み取り可能な記録媒体に、コンピュータ(情報処理機能を有する装置をいずれも含む)で読み取り可能なコードとして具現することが可能である。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取り可能なデータが保存されるあらゆる種類の記録装置を含む。コンピュータで読み取り可能な記録装置の例としては、ROM(read-only memory)、RAM(random-access memory)、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ保存装置などがある。また、コンピュータで読み取り可能な記録媒体は、ネットワークに連結されたコンピュータシステムに分散されて、分散方式でコンピュータで読み取り可能なコードが保存されて実行されうる。またキャリアウェーブ(例えば、インターネットを介した伝送)の形態で具現されるものも含む。また、本発明の概念を遂行させる機能的なプログラム、コードそしてコードセグメントは、本発明の概念の属する技術分野のプログラマらによって、容易に構成されうるデあろう。
本発明の概念によるオーディオ信号の符号化方法及び装置によれば、オーディオ信号から、重要な周波数成分を検出して符号化し、オーディオ信号に係わって包絡線を符号化する。また、本発明の概念によるオーディオ信号の復号化方法及び装置によれば、重要な周波数成分が含まれたバンドに作られた包絡線を、重要な周波数成分のエネルギー値を考慮して調節することによって、オーディオ信号を復号化する。
これにより、少ないビットを利用して符号化したり復号化するにもかかわらず、オーディオ信号の音質を低下させないので、コーディング効率を極大化できる効果を収めることができる。
本発明について実施形態を用いて説明したが、それらは例示的なものに過ぎず、本技術分野の当業者ならば、本発明の範囲および趣旨から外れない範囲で多様な変更および変形が可能であるということを理解することができるであろう。従って、本発明の技術的範囲は、説明された実施形態によって定められず、特許請求の範囲によって定められねばならない。