JP2016541012A

JP2016541012A - 周波数領域における時間的予備整形雑音の挿入によるオーディオ帯域幅拡張

Info

Publication number: JP2016541012A
Application number: JP2016527226A
Authority: JP
Inventors: ザッシャ・ディッシュ; マルクス・ムルトゥルス; ベンジャミン・シューベルト; マルクス・シュネル
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2013-10-31
Filing date: 2014-10-30
Publication date: 2016-12-28
Anticipated expiration: 2034-10-30
Also published as: EP3063761A1; ES2657337T3; JP6396459B2; CN105706166B; KR101852749B1; KR20160075768A; RU2666468C2; US20160240200A1; US9805731B2; CA2927990C; MX2016005167A; WO2015063227A1; EP3063761B1; MX355452B; RU2016121163A; CN105706166A; CA2927990A1; TR201802303T4

Abstract

本発明は、ビットストリームを復号するためのオーディオ復号器デバイスを提供し、オーディオ復号器デバイスは、ビットストリームを受信し、ビットストリームから符号化オーディオ信号を導出するように構成されたビットストリーム受信機と、符号化オーディオ信号から時間領域における復号オーディオ信号を導出するように構成されたコア復号器モジュールと、復号オーディオ信号の時間エンベロープを決定するように構成された時間エンベロープ生成器と、周波数領域帯域幅拡張信号を生成するように構成された帯域幅拡張モジュールであって、時間領域における雑音信号を生成するように構成された雑音発生器、整形済み雑音信号を生成するために復号オーディオ信号の時間エンベロープに依存して雑音信号を時間的に整形するように構成された予備整形モジュール、及び整形済み雑音信号を周波数領域雑音信号に変換するように構成された時間−周波数変換器を備え、周波数領域帯域幅拡張信号が周波数領域雑音信号に依存する帯域幅拡張モジュールと、復号オーディオ信号を周波数領域復号オーディオ信号に変換するように構成された時間−周波数変換器と、帯域幅拡張済み周波数領域オーディオ信号を生成するために、周波数領域復号オーディオ信号と周波数領域帯域幅拡張信号とを一つにまとめるように構成されたコンバイナと、帯域幅拡張済み周波数領域オーディオ信号を帯域幅拡張済み時間領域オーディオ信号に変換するように構成された周波数−時間変換器と、を備えている。【選択図】図１

Description

本発明は、音声及びオーディオコード化に関し、特に、オーディオ帯域幅拡張（ＢＷＥ）に関する。

帯域幅拡張技法は、有効出力帯域幅を拡げることによってオーディオコーデックの知覚可能な品質を増強することに焦点を当てている。基礎となるコアコーダによって帯域幅範囲全体をコード化する代わりに、帯域幅拡張技法を使用するコーデックは、知覚的にあまり重要でない高周波数（ＨＦ）範囲におけるビット消費を少なくすることを可能にする。したがって、より高い精度でより重要な低周波数（ＬＦ）範囲を処理するコアコーダに利用可能なより多くのビットが存在する。かかる理由から、低ビットレートにおいて適切な知覚品質を実現する必要があるコーデックにおいて、帯域幅拡張技法が一般的に使用されている。

一般的に、区別すべき２つの異なる基本的な帯域幅拡張手法、すなわちブラインド帯域幅拡張（blind bandwidth extension）と誘導帯域幅拡張（guided bandwidth extension）がある。ブラインド帯域幅拡張では、追加のサイド情報は送信されない。したがって、復号器側で挿入されるべきＨＦ内容（HF-content）は、コアコーダの復号ＬＦ信号から導出された情報のみを使用して生成される。コストのかかるサイド情報の送信が不要なため、ブラインド帯域幅拡張技法は、最も低いビットレートにおいて動作するコーデック又は下位互換性後処理手順に好適である。一方で、可制御性の欠如により、ブラインド帯域幅拡張を使用して、相対的に小さい帯域幅の有効拡張しかできない（例えば、［１］において６．４〜７．０ｋＨｚ）。ブラインド手法とは対照的に、誘導帯域幅拡張では、パラメータを使用してＨＦ内容が再構築され、パラメータは、符号化器側で抽出され、ビットストリームにおけるサイド情報として復号器に送信される。このため、誘導帯域幅拡張は、ＨＦ再構築のより良好な制御を可能にし、より広い有効帯域幅を可能にする。追加のビット消費に起因して、誘導帯域幅拡張技法は、ブラインド帯域幅拡張を組み込んでいるシステムのように、より高いビットレートにおいて動作するコーデックによく使用される。

より詳細には、帯域幅拡張を実現するための複数の異なる方法論がある。

音声コード化においては、通常、ソースフィルタモデルベースの帯域幅拡張方法が使用され、これらの帯域幅拡張方法は、例えば、Ｇ．７２２．２（ＡＭＲ−ＷＢ）に示されているような、それらの基礎となるコアコーダと密接に関係付けられている［１］。ＡＭＲ−ＷＢにおいて、ＡＣＥＬＰ（代数符号励振線形予測）コアコーダの６．４ｋＨｚの出力帯域幅は、励振領域内に白色雑音を注入することによって、７．０ｋＨｚまで拡張される。その後、拡張された励振は、コアコーダの線形予測（ＬＰ）フィルタから導出されたフィルタによって整形される。ビットレートに依存して、挿入された雑音のスケーリングについての利得は、コアコーダ情報のみを使用して推定されるか、又は、この利得は、符号化器において抽出され送信される。この帯域幅拡張方法は、その基礎となるコード化方式に大きく依存する。なぜなら、この帯域幅拡張方法は、その合成メカニズムを使用しており、同じ領域内で追加的に実施されなければならないためである。

オーディオコード化における公知のコアコーダ独立型帯域幅拡張技法（core coder independent bandwidth extension technique）は、スペクトル帯域複製（ＳＢＲ）である［２］。上述の例とは対照的に、スペクトル帯域複製は、その基礎となるコアコーダから独立して適用することができる。第１のステップとして、例えば、直交ミラーフィルタ分析フィルタバンク（ＱＭＦ）を使用することによって、符号化器側で入力信号がＬＦ部分とＨＦ部分とに分割される。ＬＦ信号はコアコーダに供給され、一方で、ＨＦ部分はスペクトル帯域複製によって処理される。それゆえ、ＬＦ信号に対するＨＦ信号のトーナリティ／ノイズネスもＨＦ信号の時間周波数エンベロープも記述するパラメータが抽出され、送信される。復号後、信号は、符号化器において使用されているものと同じタイプの分析フィルタバンクを使用して変換される。ＨＦ内容を再構築するために、復号信号は、ＨＦ範囲に部分的に複製され、ミラーリングされ又は転置され、そして、元のもののトーナリティ／ノイズネスに一致するように後処理され、送信されたパラメータを考慮して時間的にかつスペクトル的に整形される。その後、時間領域出力信号が、対応する合成フィルタバンクによって生成される。

上記の（セミ）パラメトリック法とは対照的に、複数のビットレート選択的なレイヤを帯域幅拡張に使用するマルチレイヤ手法も存在する。この原理は、スケーラブルコード化方式にも密接に関係付けられている。それらの技法は、既存のコード化システムを相互運用可能に拡張するために使用されることが多い。［３］において、Ｇ．７１１．１及びＧ．７２２のための超広帯域（ＳＷＢ）帯域幅拡張が提示されており、ＳＷＢ帯域幅拡張は、コアコーダから独立した修正離散コサイン変換（ＭＤＣＴ）ベースのコード化方式を用いて追加の帯域幅（８．０〜１４．４ｋＨｚ）を処理する。この手法は、ＨＦ部分の正確な再構築を可能にするが、高いビット消費が追加的に必要になるという犠牲が伴う。

上述の帯域幅拡張手法は、現行の音声及びオーディオコード化システムにおいて広く普及しているが、それらすべてにそれぞれ特定の欠点又は不都合があることが明らかになっている。

[1]Bessette, B.; et al.: "The Adaptive Multirate Wideband Speech Codec (AMR-WB)", IEEE Transactions on Speech and Audio Processing, Vol. 10, No. 8, November 2002 [2]Dietz, M.; et al.: "Spectral Band Replication, a novel approach in audio coding", Proceedings of the 112th AES Convention, May 2002 [3]Miao, L.; et al.: "G.711.1 Annex D and G.722 Annex B _ New ITU-T Super Wideband Codecs", IEEE ICASSP 2011, pp. 5232-5235

本発明の目的は、帯域幅拡張の改善された概念を提供することである。

この目的は、ビットストリームを復号するための復号器デバイスによって達成され、オーディオ復号器デバイスは、
ビットストリームを受信し、ビットストリームから符号化オーディオ信号を導出するように構成されているビットストリーム受信機と、
符号化オーディオ信号から時間領域における復号オーディオ信号を導出するように構成されているコア復号器モジュールと、
復号オーディオ信号の時間エンベロープを決定するように構成されている時間エンベロープ生成器と、
周波数領域帯域幅拡張信号を生成するように構成されている帯域幅拡張モジュールであって、帯域幅拡張モジュールは、時間領域における雑音信号を生成するように構成されている雑音発生器を備え、帯域幅拡張モジュールは、整形済み雑音信号を生成するために復号オーディオ信号の時間エンベロープに依存して雑音信号を時間的に整形するように構成されている予備整形モジュールを備え、帯域幅拡張モジュールは、整形済み雑音信号を周波数領域雑音信号に変換するように構成されている時間−周波数変換器を備え、周波数領域帯域幅拡張信号は、周波数領域雑音信号に依存する、帯域幅拡張モジュールと、
復号オーディオ信号を周波数領域復号オーディオ信号に変換するように構成されている時間−周波数変換器と、
帯域幅拡張済み周波数領域オーディオ信号を生成するために、周波数領域復号オーディオ信号と周波数領域帯域幅拡張信号とを一つにまとめるように構成されているコンバイナと、
帯域幅拡張済み周波数領域オーディオ信号を帯域幅拡張済み時間領域オーディオ信号に変換するように構成されている周波数−時間変換器と、を備える。

本発明は、基礎となるコアコード化技法から独立して基本的に適用することができる帯域幅拡張概念を提供する。また、本発明は、特に音声信号について高い知覚品質で、低ビットレート動作点について超広帯域周波数範囲までの帯域幅拡張をもたらす。これは、時間領域における時間的に整形された雑音信号を生成することによって達成され、これらの雑音信号は、変換され、周波数領域復号オーディオ信号に挿入される。

周波数領域帯域幅拡張信号という用語は、復号オーディオ信号に含まれない周波数を含む信号を指す。

例えば音声音響統合符号化（ＭＰＥＧ−ＤＵＳＡＣ）に含まれているような２つ以上の単一コアコーダを組み込んでいる柔軟な信号適応システムにおいて、異なるコアコーダ間の遷移に起こるアーティファクトを切り替えることは、帯域幅拡張も同時に切り替えられなければならないため、強調される場合がある。これらの問題は、本発明によるコアコーダ独立型帯域幅拡張技法を適用することによって克服することができる。

スペクトル帯域複製はアーティファクトを導入する。これらのアーティファクトは、特にＨＦ部分へのＬＦ成分のパッチングによって音声がコード化されるときに厄介になる場合がある。一方では、それらのアーティファクトは、ＬＦ内容とパッチングされたＨＦ内容の相関に起因して生じる。他方では、ＬＦ部分とＨＦ部分との間における可能性のあるスペクトルの不整合は、鋭い鳴りの不調和な歪みをもたらす。それとは対照的に、本発明による復号器デバイスは、アーティファクトや鋭い鳴りの生成を回避する。

スペクトル帯域複製の他の欠点は、パッチングされたＨＦ部分の時間的構造を操作する可能性が制約されることである。内容のビットレート効率的なパラメトリック時間周波数表現の必要性に起因して、時間分解能が制限される。これは、例えば、声門パルスのピッチが高く大きい時間的可変性も呈する女性の音声の処理にとって不利になる場合がある。本発明による復号器デバイスは、スペクトル帯域複製とは対照的に、女性の音声の再現に好適である。

最後に、複数のレイヤに基づく帯域幅拡張は、スペクトル的にも時間的にも正確にＨＦ内容を再構築することが可能であるが、一方では、その必要なビット消費が、パラメトリック手法よりも著しく高い。本発明による復号器デバイスは、そのような手法が強いるビット消費を低減する。

したがって、本発明は、公知の前述した帯域幅拡張技法の利点をそれらの欠点をなくしながら組み合わせる新規の帯域幅拡張概念を提供する。より詳細には、基礎となるコアコーダから独立していながら、低ビットレートにおいて高品質の超広帯域音声コード化を可能にする概念が提供される。

本発明は、特に音声について高い知覚品質で、超広帯域範囲までの出力帯域幅をもたらす。本発明による帯域幅拡張は、雑音挿入に基づく。加えて、新規の帯域幅拡張は、その基礎となるコアコーデックから独立している。それゆえ、新規の帯域幅拡張は、標準的な音声コード化帯域幅拡張とは対照的に、根本的に異なるコード化方式を組み込んだ切り替え型システム上で使用されるのに適している。

新規に提案された帯域幅拡張の信号とコアコーダの信号のミキシングが、スペクトル帯域複製に同等の時間周波数表現で実行されると、フレームごとのシームレスな切替え又は所与のフレーム内でのブレンドが可能であり得る組み合わされたシステムで、両技法が容易に組み合わされ得る。新規の帯域幅拡張は主に音声に焦点を当てているため、この手法は、音楽又は混合内容を含む信号を処理するのに好ましい場合がある。送信されたサイド情報によって、又はコア信号を分析することで復号器内において導出されたパラメータによって、切替えを制御することができる。

本発明によれば、雑音の生成と後続の整形は時間領域において行われる。なぜなら、フィルタバンクが、ピッチの高い（例えば、女性の）音声を再現するのに必須である時間分解能を制限するため、時間領域において、時間分解能は、スペクトル帯域複製処理において適用されるものと同様の、時間周波数表現内で雑音が生成され整形されるソリューションにおけるものよりも高くなることがあるからである。

上述の問題を回避し、かつ要件を満たすために、新規の帯域幅拡張は、以下の処理ステップを実行する。最初に、単一雑音信号が時間領域において生成される。ここで、サンプルの数は、システムのフレームレート並びに選択されたサンプリングレート及び雑音信号の帯域幅から生じる。その後、雑音信号は、コアコーダの復号信号の時間エンベロープに基づいて、時間的に予備整形される。また、組み合わされた時間周波数表現信号は、逆変換によって帯域幅拡張済み時間領域オーディオ信号に変換される。

帯域幅拡張技法は、有効出力帯域幅を拡げることによって知覚品質を増強するための、音声とオーディオのコード化によく使用される。したがって、利用可能なビットの大部分はコアコーダ内で使用することができ、より重要な低周波数範囲でより高い精度が得られる。既存の手法が存在し、それらのいくつかは広く受け入れられているが、これらの手法はすべて、異なるコード化方式に基づく複数の切替え可能なコアコーダを組み込んだシステムによる音声処理に対する実行可能性を欠いている。本発明による帯域幅拡張はコア復号器技術から独立しているため、本発明は、上述の用途などに完全に適した帯域幅拡張技法を提案する。

本発明による帯域幅拡張内では、時間エンベロープを有する全合成拡張信号が生成されてもよい。時間エンベロープは、予備整形することができ、それによって、基礎となるコアコーダ信号に適応することができる。拡張信号の時間エンベロープの整形は、帯域幅拡張後整形プロセスで利用される純粋なフィルタバンク又は変換領域内で利用可能な時間分解能よりも大幅に高い時間分解能で行うことができる。

本発明の好ましい実施形態によれば、周波数領域帯域幅拡張信号は、スペクトル帯域複製無しに生成される。これらの特徴によって、必要な計算労力を最小限に抑えることができる。

本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、雑音信号の時間的整形が過度強調的に行われるように構成されている。復号オーディオ信号の元の時間エンベロープに基づいて雑音信号を整形する代わりに、この整形を過度強調的に実行することも可能である。これは、時間エンベロープに基づいて予備整形利得を導出する前に、時間エンベロープを振幅に関して分散させることによって、言い換えれば、動的拡張によって、特に、測定されたエンベロープを修正して、測定されたものよりもはるかに鋭いパルスを表すことによって、実現することができる。この過度強調は実際の元のエンベロープを表さないが、例えば母音のようないくつかの信号部分の明瞭性が、非常に低いビットレートに対して改善する。

本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、雑音信号の時間的整形が、バンドパスフィルタのバンクによって雑音信号をいくつかの部分帯域雑音信号に分割し、部分帯域雑音信号の各々に対して特定の時間的整形を実施することによって、部分帯域的（subband-wise）に行われるように構成されている。

雑音信号を均一に予備整形する代わりに、バンドパスフィルタのバンクによって雑音信号をいくつかの部分帯域に分割し、すべての部分帯域信号に対して特定の整形を実施することによって、整形をより精密に行うことができる。

本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、周波数領域帯域幅拡張信号の周波数範囲を設定するように構成された周波数範囲選択器を備えている。整形済み雑音信号を時間周波数表現に変換した後、帯域幅拡張済み周波数領域オーディオ信号の目標帯域を選択することができ、必要な場合には、所望のスペクトル位置にシフトすることもできる。これらの特徴により、帯域幅拡張済み時間領域オーディオ信号の周波数範囲を容易に選択することができる。

本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、周波数領域帯域幅拡張信号を周波数領域において時間的に及び／又はスペクトル的に整形するように構成された後整形モジュールを備えている。これらの特徴により、周波数領域帯域幅拡張信号を、改良のための追加の時間的傾向及び／又はスペクトルエンベロープに対して適応させることができる。

本発明の好ましい実施形態によれば、ビットストリーム受信機は、ビットストリームからサイド情報信号を導出するように構成されており、帯域幅拡張モジュールは、サイド情報信号に依存して周波数領域帯域幅拡張信号を生成するように構成されている。言い換えれば、符号化器内で抽出されビットストリームを介して送信された追加のサイド情報は、周波数領域帯域幅拡張信号のさらなる改良のために適用することができる。これらの特徴により、帯域幅拡張済み時間領域オーディオ信号の知覚品質をさらに増大することができる。

本発明の好ましい実施形態によれば、雑音発生器は、サイド情報信号に依存して雑音信号を生成するように構成されている。この実施形態において、雑音発生器は、帯域幅拡張済み時間領域オーディオ信号の知覚品質をさらに改善するために、スペクトル的に平坦な白色雑音の代わりに、スペクトル傾斜を有する雑音信号を得るように制御することができる。

本発明の好ましい実施形態によれば、予備整形モジュールは、サイド情報信号に依存して雑音信号を時間的に整形するように構成されている。予備整形内で、サイド情報は、例えば、予備整形に使用されるコア復号器信号のある目標帯域幅を選択するために使用することができる。

本発明の好ましい実施形態によれば、後整形モジュールは、サイド情報信号に依存して周波数領域出力雑音信号を時間的に及び／又はスペクトル的に整形するように構成されている。後整形においてサイド情報を使用することにより、周波数領域帯域幅拡張信号の粗い時間周波数エンベロープが元のエンベロープに従うことが保証され得る。

本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、時間領域におけるさらなる雑音信号を生成するように構成されたさらなる雑音発生器と、さらなる整形済み雑音信号を生成するために復号オーディオ信号の時間エンベロープに依存してさらなる雑音信号を時間的に整形するように構成されたさらなる予備整形モジュールと、さらなる整形済み雑音信号をさらなる周波数領域雑音信号に変換するように構成されたさらなる時間−周波数変換器と、を備え、周波数領域帯域幅拡張信号は、さらなる周波数領域雑音信号に依存する。２つ以上の周波数領域雑音信号を使用して周波数領域帯域幅拡張信号を生成することにより、帯域幅拡張済み時間領域オーディオ信号の知覚品質を増大させることができる。

本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、さらなる雑音信号の時間的整形が過度強調的に行われるように構成されている。復号オーディオ信号の元の時間エンベロープに基づいてさらなる雑音信号を整形する代わりに、この整形を過度強調的に実施することも可能である。これは、時間エンベロープに基づいて予備整形利得を導出する前に、時間エンベロープを振幅に関して分散させることによって実現することができる。この過度強調は実際の元のエンベロープを表さないが、例えば母音のようないくつかの信号部分の明瞭性が、非常に低いビットレートに対して改善される。

本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、さらなる雑音信号の時間的整形が、バンドパスフィルタのバンクによってさらなる雑音信号を別々のさらなる部分帯域雑音信号に分割し、さらなる部分帯域雑音信号の各々に対して特定の時間的整形を実行することによって、部分帯域的に行われるように構成されている。

さらなる雑音信号を均一に予備整形する代わりに、整形は、バンドパスフィルタのバンクによってさらなる雑音信号を別々の部分帯域に分割し、すべての部分帯域信号に対して特定の整形を実行することによって、より精密に行うことができる。

本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、時間領域におけるトーン信号を生成するように構成されたトーン発生器と、整形済みトーン信号を生成するために復号オーディオ信号の時間エンベロープに依存してトーン信号を時間的に整形するように構成された予備整形モジュールと、整形済みトーン信号を周波数領域トーン信号に変換するように構成された時間−周波数変換器と、を備え、周波数領域帯域幅拡張信号は、周波数領域トーン信号に依存する。

前記トーン発生器は、すべての種類のトーン、例えば、正弦波トーン、三角波トーン及び方形波トーン、のこぎり歯トーン、人口有声音声に似たパルスなどを生成するように機能することができる。合成雑音信号の処理に加えて、時間領域における合成トーン成分を生成することも可能であり、合成トーン成分は、時間的に整形され、その後周波数表現に変換される。この場合、時間領域における整形は、例えば、トーンのＡＤＳＲ（立ち上がり、減衰、保持、余韻）相を精密にモデル化するのに有益であり、これは、一般的な周波数領域表現では可能ではない。周波数領域トーン信号を追加的に使用することにより、帯域幅拡張済み時間領域信号の品質をさらに増大させることができる。

本発明の好ましい実施形態によれば、コア復号器モジュールは、時間領域コア復号器及び周波数領域コア復号器を備え、時間領域コア復号器又は周波数領域コア復号器のいずれかは、符号化オーディオ信号から復号オーディオ信号を導出するために使用される。これらの特徴は、音声音響統合符号化（ＭＰＥＧ−ＤＵＳＡＣ）環境において本発明を使用することを可能にする。

本発明の好ましい実施形態によれば、制御パラメータ抽出器は、コア復号器モジュールによって使用される制御パラメータを復号オーディオ信号から抽出するように構成されており、帯域幅拡張モジュールは、制御パラメータに依存して周波数領域帯域幅拡張信号を生成するように構成されている。周波数領域帯域幅拡張信号は、コアコーダエンベロープに基づいて無条件に（blindly）生成されるか、又はコアコーダ信号から導出されたパラメータによって制御されてもよいが、周波数領域帯域幅拡張信号は、符号化器から抽出及び送信されたパラメータにより、部分的に誘導されて生成することもできる。

本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、復号オーディオ信号の時間エンベロープに依存して予備整形モジュールに関する整形利得を確立するように構成された整形利得計算器を備え、予備整形モジュールは、予備整形モジュールに関する整形利得に依存して雑音信号を時間的に整形するように構成されている。これらの特徴により、本発明の容易な実施が可能になる。

本発明の好ましい実施形態によれば、予備整形モジュールに関する整形利得を確立するための整形利得計算器は、制御パラメータに依存して予備整形モジュールに関する整形利得を確立するように構成されている。これらの特徴により、本発明の容易な実施が可能になる。

本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、復号オーディオ信号の時間エンベロープに依存してさらなる予備整形モジュールに関する整形利得を確立するように構成された整形利得計算器を備え、さらなる予備整形モジュールは、さらなる予備整形モジュールに関する整形利得に依存してさらなる雑音信号を時間的に整形するように構成されている。

本発明の好ましい実施形態によれば、さらなる予備整形モジュールに関する整形利得を確立するための整形利得計算器は、制御パラメータに依存してさらなる予備整形モジュールに関する整形利得を確立するように構成されている。

本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、復号オーディオ信号の時間エンベロープに依存してトーン予備整形モジュールに関する整形利得を確立するように構成された整形利得計算器を備え、トーン予備整形モジュールは、トーン予備整形モジュールに関する整形利得に依存してトーン信号を時間的に整形するように構成されている。

本発明の好ましい実施形態によれば、トーン予備整形モジュールに関する整形利得を確立するための整形利得計算器は、制御パラメータに依存してさらなる予備整形モジュールに関する整形利得を確立するように構成されている。

さらなる態様において、ビットストリームを復号するための方法によって本発明の目的が達成される。その方法は、
ビットストリーム受信機を使用して、ビットストリームを受信し、ビットストリームから符号化オーディオ信号を導出するステップと、
コア復号器モジュールを使用して、符号化オーディオ信号から時間領域における復号オーディオ信号を導出するステップと、
時間エンベロープ生成器を使用して、復号オーディオ信号の時間エンベロープを決定するステップと、
帯域幅拡張モジュールであって、
帯域幅拡張モジュールの雑音発生器を使用して時間領域における雑音信号を生成するステップ、
帯域幅拡張モジュールの予備整形モジュールを使用して、整形済み雑音信号を生成するために復号オーディオ信号の時間エンベロープに依存して雑音信号を時間的に整形するステップ、
帯域幅拡張モジュールの時間−周波数変換器を使用して、整形済み雑音信号を周波数領域雑音信号に変換するステップであって、周波数領域帯域幅拡張信号が周波数領域雑音信号に依存するステップ、を実行する帯域幅拡張モジュールを使用し、周波数領域帯域幅拡張信号を生成するステップと、
さらなる時間−周波数変換器を使用して、復号オーディオ信号を周波数領域復号オーディオ信号に変換するステップと、
コンバイナを使用して、帯域幅拡張済み周波数領域オーディオ信号を生成するために、周波数領域復号オーディオ信号と周波数領域帯域幅拡張信号とを組み合わせるステップと、
周波数−時間変換器を使用して、帯域幅拡張済み周波数領域オーディオ信号を帯域幅拡張済み時間領域オーディオ信号に変換するステップと、を含むものである。

さらなる態様では、本発明の目的が、プロセッサで作動すると本発明の方法を実行するコンピュータプログラムによって達成される。

本発明によるオーディオ復号器デバイスの第１の実施形態を示す概略図である。本発明によるオーディオ復号器デバイスの第２の実施形態を示す概略図である。本発明によるオーディオ復号器デバイスの第３の実施形態を示す概略図である。本発明によるオーディオ復号器デバイスの第４の実施形態を示す概略図である。

続いて、添付の図面に関連して、本発明の好ましい実施形態を説明する。

図１は、本発明によるオーディオ復号器デバイスの第１の実施形態を概略図において示す。

オーディオ復号器デバイス１は、
ビットストリームＢＳを受信し、ビットストリームＢＳから符号化オーディオ信号ＥＡＳを導出するように構成されたビットストリーム受信機２と、
符号化オーディオ信号ＥＡＳから時間領域における復号オーディオ信号ＤＡＳを導出するように構成されたコア復号器モジュール３と、
復号オーディオ信号ＤＡＳの時間エンベロープＴＥＤを決定するように構成された時間エンベロープ生成器４と、
周波数領域帯域幅拡張信号ＢＥＦを生成するように構成された帯域幅拡張モジュール５であって、時間領域における雑音信号ＮＯＳを生成するように構成された雑音発生器６、整形済み雑音信号ＳＮＳを生成するために復号オーディオ信号ＤＡＳの時間エンベロープＴＥＤに依存して雑音信号ＮＯＳを時間的に整形するように構成された予備整形モジュール７、及び、整形済み雑音信号ＳＮＳを周波数領域雑音信号ＦＮＳに変換するように構成された時間−周波数変換器８を備え、周波数領域帯域幅拡張信号ＢＥＦは周波数領域雑音信号ＦＮＳに依存する帯域幅拡張モジュール５と、
復号オーディオ信号ＤＡＳを周波数領域復号オーディオ信号ＦＤＳに変換するように構成された時間−周波数変換器９と、
帯域幅拡張済み周波数領域オーディオ信号ＢＦＳを生成するために、周波数領域復号オーディオ信号ＦＤＳと周波数領域帯域幅拡張信号ＢＥＦとを組み合わせるように構成されたコンバイナ１０と、
帯域幅拡張済み周波数領域オーディオ信号ＢＦＳを帯域幅拡張済み時間領域オーディオ信号ＢＡＳに変換するように構成されている周波数−時間変換器１１と、を備えている。

本発明は、基礎となるコアコード化技法から独立して基本的に適用することができる帯域幅拡張概念を提供する。また、本発明は、特に音声信号について高い知覚品質で、低ビットレート動作点について超広帯域周波数範囲までの帯域幅拡張をもたらす。これは、時間領域における時間的に整形された雑音信号ＳＮＳを生成することによって達成され、これらの雑音信号は、変換され、周波数領域復号オーディオ信号ＦＤＳに挿入される。

スペクトル帯域複製はアーティファクトを導入し、これらのアーティファクトは、ＨＦ部分へのＬＦ成分のパッチングによって、特に音声がコード化されるときに、厄介となる場合がある。一方では、それらのアーティファクトは、ＬＦ内容及びパッチングされたＨＦ内容の相関に起因して生じる。他方では、ＬＦ部分とＨＦ部分との間の可能性のあるスペクトル不整合は、鋭い鳴りの不調和な歪みをもたらす。それとは対照的に、本発明による復号器デバイス１は、アーティファクト及び鋭い鳴りを生成することを回避する。

スペクトル帯域複製の別の欠点は、パッチングされたＨＦ部分の時間的構造を操作する可能性を欠くことである。内容のビットレート効率的なパラメトリック時間周波数表現の必要性に起因して、時間分解能が制限される。これは、例えば、声門パルスのピッチが高く大きい時間的可変性も呈する女性の音声の処理に対し不都合となる場合がある。本発明による復号器デバイス１は、スペクトル帯域複製とは対照的に、女性の音声の再現に好適である。

最後に、複数のレイヤに基づく帯域幅拡張は、スペクトル的にも時間的にも正確にＨＦ内容を再構築することが可能であるが、一方では、その必要なビット消費が、パラメトリック手法よりも著しく高い。本発明による復号器デバイス１は、そのような手法で強いられるビット消費を低減する。

したがって、本発明は、公知の前述の帯域幅拡張技法の利点をそれらの欠点をなくしながら組み合わせる新規の帯域幅拡張概念を提供する。より詳細には、基礎となるコアコーダ３から独立していながら、低ビットレートにおいて高品質の超広帯域音声コード化を可能にする概念が提供される。

新規に提案された帯域幅拡張の信号とコアコーダの信号とのミキシングが、スペクトル帯域複製に同等の時間周波数表現において実行されると、両技法は、フレームごとのシームレスな切替え又は所与のフレーム内でのブレンドが可能となり得る組み合わされたシステムで、容易に組み合わされ得る。新規の帯域幅拡張は主に音声に焦点を当てているため、この手法は、音楽又は混合内容を含む信号を処理するのに好ましい場合がある。送信されたサイド情報によって、又はコア信号ＤＡＳを分析することで復号器３内で導出されたパラメータによって、切替えを制御することができる。

本発明によれば、雑音の生成及び後続の整形は時間領域において行われる。なぜなら、フィルタバンクが、ピッチの高い（例えば、女性の）音声を再現するのに必須である時間分解能を制限するため、時間領域において、時間分解能は、スペクトル帯域複製処理において適用されるものと同様の、時間周波数表現内で雑音が生成され整形されるソリューションにおけるものよりも高くなることがあるからである。

上述の問題を回避し、かつ要件を満たすために、新規の帯域幅拡張は、以下の処理ステップを実行する。最初に、単一雑音信号ＮＯＳが時間領域において生成され、ここで、サンプルの数は、システムのフレームレート並びに選択されたサンプリングレート及び雑音信号の帯域幅から生じる。その後、雑音信号ＮＯＳは、コアコーダの復号信号ＤＡＳの時間エンベロープＴＥＤに基づいて、時間的に予備整形される。また、組み合わされた時間周波数表現信号ＢＦＳは、逆変換によって帯域幅拡張済み時間領域オーディオ信号ＢＡＳに変換される。

帯域幅拡張技法は、有効出力帯域幅を拡げることによって知覚品質を増強するための音声及びオーディオコード化でよく使用されている。したがって、利用可能なビットの大部分はコアコーダ３内で使用することができ、より重要な低周波数範囲でより高い精度が得られる。既存の手法が存在し、それらのいくつかは広く受け入れられているが、これらの手法はすべて、異なるコード化方式に基づいて複数の切替え可能なコアコーダを組み込んだシステムによる音声処理に対する実行可能性を欠いている。本発明による帯域幅拡張はコア復号器技術から独立しているため、本発明は、上述の用途などに完全に適した帯域幅拡張技法を提案する。

本発明による帯域幅拡張内で全合成拡張信号が生成されてもよい。全合成拡張信号は時間エンベロープを有し、時間エンベロープは、予備整形することができ、それによって、基礎となるコアコーダ信号ＤＡＳに適応することができる。拡張信号ＳＮＳの時間エンベロープの整形は、帯域幅拡張後整形プロセスにおいて利用される純粋なフィルタバンク又は変換領域内で利用可能な時間分解能よりも大幅に高い時間分解能で行うことができる。

本発明の好ましい実施形態によれば、周波数領域帯域幅拡張信号ＢＥＦは、スペクトル帯域複製なしに生成される。これらの特徴によって、必要な計算労力を最小限に抑えることができる。

本発明の好ましい実施形態によれば、帯域幅拡張モジュール５は、雑音信号ＮＯＳの時間的整形が過度強調的に行われるように構成されている。復号オーディオ信号ＤＡＳの元の時間エンベロープＴＥＤに基づいて雑音信号ＮＯＳを整形する代わりに、この整形を過度強調的に実施することも可能である。これは、時間エンベロープＴＥＤに基づいて予備整形利得を導出する前に、時間エンベロープＴＥＤを振幅に関して分散させることによって実現することができる。この過度強調は実際の元のエンベロープＴＥＤを表さないが、例えば母音のようないくつかの信号部分の明瞭性が、非常に低いビットレートに対して改善する。

本発明の好ましい実施形態によれば、帯域幅拡張モジュール５は、雑音信号ＮＯＳの時間的整形が、バンドパスフィルタのバンクによって雑音信号ＮＯＳを別々の部分帯域雑音信号に分割し、部分帯域雑音信号の各々に対して特定の時間的整形を実施することによって、部分帯域的に行われるように構成されている。

雑音信号ＮＯＳを均一に予備整形する代わりに、整形は、バンドパスフィルタのバンクによって雑音信号ＮＯＳを別々の部分帯域に分割し、すべての部分帯域信号に対して特定の整形を実施することによって、より精密に行うことができる。

また、本発明は、ビットストリームＢＳを復号するための方法に関し、方法は、
ビットストリーム受信機２を使用して、ビットストリームＢＳを受信し、ビットストリームＢＳから符号化オーディオ信号ＥＡＳを導出するステップと、
コア復号器モジュール３を使用して、符号化オーディオ信号ＥＡＳから時間領域における復号オーディオ信号ＤＡＳを導出するステップと、
時間エンベロープ生成器４を使用して、復号オーディオ信号ＤＡＳの時間エンベロープＴＥＤを決定するステップと、
帯域幅拡張モジュール５であって、
前記帯域幅拡張モジュール５の雑音発生器６を使用して時間領域における雑音信号ＮＯＳを生成するステップ、
帯域幅拡張モジュール５の予備整形モジュール７を使用して、整形済み雑音信号ＳＮＳを生成するために復号オーディオ信号ＤＡＳの時間エンベロープＴＥＤに依存して雑音信号ＮＯＳを時間的に整形するステップ、及び
帯域幅拡張モジュール５の時間−周波数変換器８を使用して、整形済み雑音信号ＳＮＳを周波数領域雑音信号ＦＮＳに変換するステップであって、周波数領域帯域幅拡張信号ＢＥＦが周波数領域雑音信号ＦＮＳに依存するステップを実行する、帯域幅拡張モジュール５を使用し、周波数領域帯域幅拡張信号ＢＥＦを生成するステップと、
さらなる時間−周波数変換器９を使用して、復号オーディオ信号ＤＡＳを周波数領域復号オーディオ信号ＦＤＳに変換するステップと、
コンバイナ１０を使用して、帯域幅拡張済み周波数領域オーディオ信号ＢＦＳを生成するために、周波数領域復号オーディオ信号ＦＤＳと周波数領域帯域幅拡張信号ＢＥＦとを組み合わせるステップと、
周波数−時間変換器１１を使用して、帯域幅拡張済み周波数領域オーディオ信号ＢＦＳを帯域幅拡張済み時間領域オーディオ信号ＢＡＳに変換するステップと、を含む。

その上、本発明は、プロセッサで作動すると本発明による方法を実行するコンピュータプログラムに関する。

図２は、本発明によるオーディオ復号器デバイスの第２の実施形態を概略図において示す。

本発明の好ましい実施形態によれば、帯域幅拡張モジュール５は、周波数領域帯域幅拡張信号ＢＥＦの周波数範囲を設定するように構成された周波数範囲選択器１２を備えている。整形済み雑音信号ＳＮＳを時間周波数表現ＦＮＳに変換した後、帯域幅拡張済み周波数領域オーディオ信号ＢＥＦの目標帯域を選択することができ、必要な場合には、所望のスペクトル位置にシフトすることもできる。これらの特徴により、帯域幅拡張済み時間領域オーディオ信号ＢＡＳの周波数範囲を容易に選択することができる。

本発明の好ましい実施形態によれば、帯域幅拡張モジュール５は、周波数領域帯域幅拡張信号ＢＥＦを周波数領域において時間的に及び／又はスペクトル的に整形するように構成された後整形モジュールを備えている。これらの特徴により、周波数領域帯域幅拡張信号ＢＥＦは、改良のための追加の時間的傾向及び／又はスペクトルエンベロープに対して適応することができる。

本発明の好ましい実施形態によれば、ビットストリーム受信機２は、ビットストリームＢＳからサイド情報信号ＳＩＳを導出するように構成されており、帯域幅拡張モジュール５は、サイド情報信号ＳＩＳに依存して周波数領域帯域幅拡張信号ＢＥＦを生成するように構成されている。言い換えれば、符号化器内で抽出されビットストリームＢＳを介して送信された追加のサイド情報は、周波数領域帯域幅拡張信号ＢＥＦのさらなる改良のために適用することができる。これらの特徴により、帯域幅拡張済み時間領域オーディオ信号ＢＡＳの知覚品質をさらに増大させることができる。

本発明の好ましい実施形態によれば、雑音発生器６は、サイド情報信号ＳＩＳに依存して雑音信号ＮＯＳを生成するように構成されている。この実施形態において、雑音発生器６は、帯域幅拡張済み時間領域オーディオ信号ＢＡＳの知覚品質をさらに改善するために、スペクトル的に平坦な白色雑音の代わりに、スペクトル傾斜を有する雑音信号を得るように制御することができる。

本発明の好ましい実施形態によれば、予備整形モジュール７は、サイド情報信号ＳＩＳに依存して雑音信号ＮＯＳを時間的に整形するように構成されている。予備整形内で、サイド情報は、例えば、予備整形に使用されるコア復号器信号ＤＡＳのある目標帯域幅を選択するために使用することができる。

本発明の好ましい実施形態によれば、後整形モジュール１３は、サイド情報信号ＳＩＳに依存して周波数領域帯域幅拡張信号ＢＥＦを時間的に及び／又はスペクトル的に整形するように構成されている。後整形においてサイド情報を使用することにより、周波数領域帯域幅拡張信号ＢＥＦの粗い時間周波数エンベロープが元のエンベロープＴＥＤに従うことが保証され得る。

図３は、本発明によるオーディオ復号器デバイスの第３の実施形態を概略図で示す。

本発明の好ましい実施形態によれば、帯域幅拡張モジュール５は、時間領域におけるさらなる雑音信号ＮＯＳＦを生成するように構成されたさらなる雑音発生器１４と、さらなる整形済み雑音信号ＳＮＳＦを生成するために復号オーディオ信号ＤＡＳの時間エンベロープＴＥＤに依存してさらなる雑音信号ＮＯＳＦを時間的に整形するように構成されたさらなる予備整形モジュール１５と、さらなる整形済み雑音信号ＳＮＳＦをさらなる周波数領域雑音信号ＦＮＳＦに変換するように構成されたさらなる時間−周波数変換器１６と、を備え、周波数領域帯域幅拡張信号ＢＥＦは、さらなる周波数領域雑音信号ＦＮＳＦに依存する。２つの周波数領域雑音信号ＦＮＳ、ＦＮＳＦを使用して周波数領域帯域幅拡張信号ＢＥＦを生成することにより、帯域幅拡張済み時間領域オーディオ信号ＢＡＳの知覚品質を増大させることができる。

本発明の好ましい実施形態によれば、帯域幅拡張モジュール５は、さらなる雑音信号ＮＯＳＦの時間的整形が過度強調的に行われるように構成されている。これは、時間エンベロープに基づいて予備整形利得を導出する前に、時間エンベロープを振幅に関して分散させることによって実現することができる。この過度強調は実際の元のエンベロープを表さないが、例えば母音のようないくつかの信号部分の明瞭性は、非常に低いビットレートについて改善する。

本発明の好ましい実施形態によれば、帯域幅拡張モジュール５は、さらなる雑音信号ＮＯＳＦの時間的整形が、バンドパスフィルタのバンクによってさらなる雑音信号ＮＯＳＦをいくつかのさらなる部分帯域雑音信号に分割し、さらなる部分帯域雑音信号の各々に対して特定の時間的整形を実施することによって、部分帯域的に行われるように構成されている。

さらなる雑音信号を均一に予備整形する代わりに、整形は、バンドパスフィルタのバンクによってさらなる雑音信号をいくつかの部分帯域に分割し、すべての部分帯域信号に対して特定の整形を実施することによって、より精密に行うことができる。

本発明の好ましい実施形態によれば、帯域幅拡張モジュール５は、時間領域におけるトーン信号ＴＯＳを生成するように構成されているトーン発生器１７と、整形済みトーン信号ＳＴＳを生成するために復号オーディオ信号ＤＡＳの時間エンベロープＴＥＤに依存してトーン信号ＴＯＳを時間的に整形するように構成されているトーン予備整形モジュール１８と、整形済みトーン信号ＳＴＳを周波数領域トーン信号ＦＴＳに変換するように構成されている時間−周波数変換器１９と、を備え、周波数領域帯域幅拡張信号ＢＥＦは、周波数領域トーン信号ＦＴＳに依存する。合成雑音信号ＮＯＳ、ＮＯＳＦの処理に加えて、時間領域における合成トーン成分を生成することも可能であり、合成トーン成分は、時間的に整形され、その後周波数表現ＦＴＳに変換される。この場合、時間領域における整形は、例えば、トーンのＡＤＳＲ（立ち上がり、減衰、保持、余韻）相を精密にモデル化するのに有益であり、これは、一般的な周波数領域表現では可能ではない。周波数領域トーン信号ＦＴＳを追加的に使用することにより、帯域幅拡張済み時間領域信号ＢＡＳの品質をさらに増大させることができる。

周波数領域雑音信号ＦＮＳ、さらなる周波数領域信号ＦＮＳＦ及び／又は周波数領域トーン信号は、コンバイナ２０によって組み合わされてもよい。

図４は、本発明によるオーディオ復号器デバイスの第４の実施形態を概略図において示す。

本発明の好ましい実施形態によれば、コア復号器モジュール５は、時間領域コア復号器２１及び周波数領域コア復号器２２を備え、時間領域コア復号器２１又は周波数領域コア復号器２２のいずれかは、符号化オーディオ信号ＥＡＳから復号オーディオ信号ＤＡＳを導出するために選択することができる。これらの特徴は、音声音響統合符号化（ＭＰＥＧ−ＤＵＳＡＣ）環境において本発明を使用することを可能にする。

本発明の好ましい実施形態によれば、制御パラメータ抽出器２３は、コア復号器モジュール３によって使用される制御パラメータＣＰを復号オーディオ信号ＤＡＳから抽出するように構成されており、帯域幅拡張モジュール５は、制御パラメータＣＰに依存して周波数領域帯域幅拡張信号ＢＥＦを生成するように構成されている。周波数領域帯域幅拡張信号ＢＥＦは、コアコーダエンベロープに基づいて無条件に生成されるか、又は、コアコーダ信号から導出されたパラメータによって制御されてもよいが、符号化器から抽出及び送信されたパラメータによって部分的に誘導されて生成することもできる。

本発明の好ましい実施形態によれば、帯域幅拡張モジュール５は、復号オーディオ信号ＤＡＳの時間エンベロープＴＥＤに依存して予備整形モジュール７に関する整形利得ＳＧを確立するように構成された整形利得計算器２４を備えている。予備整形モジュール７は、予備整形モジュール７に関する整形利得ＳＧに依存して雑音信号ＮＯＳを時間的に整形するように構成されている。これらの特徴により、本発明の実施が容易になる。

本発明の好ましい実施形態によれば、予備整形モジュール７に関する整形利得ＳＧを確立するための整形利得計算器２４は、制御パラメータＣＰに依存して予備整形モジュール７に関する整形利得ＳＧを確立するように構成されている。

本発明の好ましい実施形態によれば、帯域幅拡張モジュール５は、復号オーディオ信号ＤＡＳの時間エンベロープＴＥＤに依存してさらなる予備整形モジュール１５に関する整形利得を確立するように構成された整形利得計算器を備えている。さらなる予備整形モジュール１４は、さらなる予備整形モジュール１４に関する整形利得に依存してさらなる雑音信号ＮＯＳＦを時間的に整形するように構成されている。

本発明の好ましい実施形態によれば、さらなる予備整形モジュール１５に関する整形利得を確立するための整形利得計算器は、制御パラメータＣＰに依存してさらなる予備整形モジュール１５に関する整形利得を確立するように構成されている。

本発明の好ましい実施形態によれば、帯域幅拡張モジュール５は、復号オーディオ信号ＤＡＳの時間エンベロープＴＥＤに依存してトーン予備整形モジュール１８に関する整形利得を確立するように構成された整形利得計算器を備えている。トーン予備整形モジュール１８は、トーン予備整形モジュール１８に関する整形利得に依存してトーン信号ＴＯＳを時間的に整形するように構成されている。

本発明の好ましい実施形態によれば、トーン予備整形モジュール１８に関する整形利得を確立するための整形利得計算器は、制御パラメータＣＰに依存してさらなる予備整形モジュール１８に関する整形利得を確立するように構成されている。

図４は、切り替え型コード化システムの増強として、ステップごとに新規の帯域幅拡張の好ましい実施形態を示す。例示的なシステムは時間領域コア復号器２１及び周波数領域コア復号器２２を備え、時間領域コア復号器２１及び周波数領域コア復号器２２は、それぞれ１２．８ｋＨｚの内部サンプリングレートと２０ｍｓのフレーミングで動作する。この設定により、結果として、１フレームあたり２５６個の復号器出力サンプル及び６．４ｋＨｚの出力帯域幅が得られる。帯域幅拡張を適用することによって、システムの有効出力帯域幅は、３２．０ｋＨｚのサンプリングレートにおいて、１つの雑音信号で１４．４ｋＨｚまで拡張されると想定される。このため、以下のステップは、フレームごとに実行されてもよい。

雑音発生のステップにおいて、８．０ｋＨｚ有効帯域幅の雑音フレーム（１４．４ｋＨｚ〜６．４ｋＨｚ）は、１６．０ｋＨｚのサンプリングにおいて２０ｍｓの白色雑音を生成することによって得られてもよく、それによって３２０個の雑音サンプルがもたらされる。

制御パラメータ抽出のステップにおいて、コア復号器からのパラメータ、例えば、基本周波数及び音声コーダの長期予測器（ＬＴＰ）利得が再使用されてもよい。また、コア復号器出力信号からのパラメータ、例えば、スペクトル中心及びゼロ交差率が抽出されてもよい。その上、予備整形の強度に対する判断は、例えば、高い基本周波数及び高い長期予測器利得（ピッチの高い母音）に関しては強い整形、並びに、高いスペクトル中心及びゼロ交差率（歯擦音）に関しては弱い整形又は整形なしというように、制御パラメータに基づいてもよい。

時間エンベロープ生成のステップにおいて、コア復号器出力信号ＤＡＳからＤＣ部分と非常に低い周波数を除去するためにハイパスフィルタが使用されてもよいし、時間サンプルがエネルギーに変換されてもよいし、そのエネルギーから線形予測コード化（ＬＰＣ）係数が計算されてもよい。

整形利得を計算するステップにおいて、線形予測コード化係数は、平滑化された時間エンベロープを表す３２０サンプル長の周波数応答に変換されてもよく、平滑な時間エンベロープのサンプルは、目標整形強度を考慮した利得値に変換されてもよい。

時間的予備整形のステップにおいて、予備整形利得値は、雑音サンプルに適用されてもよい。

時間−周波数変換のステップにおいて、コア復号器出力信号ＤＡＳは、４００Ｈｚ帯域幅及び１．２５ｍｓホップサイズのフィルタを組み込んだ分析直交ミラーフィルタバンクによって処理されてもよく、それによって２０個の直交ミラーフィルタ部分帯域と１６個の時間スロットの時間−周波数行列が得られる。また、雑音フレームは、復号器出力信号のものと同じ設定を組み込んださらなる直交ミラーフィルタバンクによって処理されてもよく、それによって１６個の直交ミラーフィルタ部分帯域と１６個の時間スロットの時間−周波数行列が得られる。

転置（帯域幅選択）ステップにおいて、雑音フレームは、目標周波数範囲にシフトされ復号器信号行列上に積み重ねられて、３６個の直交ミラーフィルタ部分帯域と１６個の時間スロットの出力Ｔ／Ｆ行列にしてもよい。

時間的及びスペクトル的後整形のステップにおいて、重要な信号部分（例えば、過渡）に関する正確な時間的傾向は、送信されたサイド情報により転置した直交ミラーフィルタエンベロープを時間的に後整形することによって、保証されてもよい。その上、元のスペクトル傾斜及び全体的なエネルギーは、送信されたサイド情報により転置した直交ミラーフィルタエンベロープをスペクトル的に後整形することによって、近似させてもよい。

合成するステップにおいて、３６個の部分帯域の出力時間−周波数行列は、４０部分帯域合成直交ミラーフィルタバンクによって処理されてもよく、それにより３２．０ｋＨｚサンプリングレートと１４．４ｋＨｚの有効帯域幅の超広帯域時間領域出力信号ＢＡＳが得られる。

記載されている実施形態の復号器及び方法に関して、以下のことを言及しておく。

いくつかの態様は装置の側面で記載されているが、これらの態様は対応する方法の記載も表すことが明らかであり、ブロック又はデバイスは、方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップの側面で記載されている態様は、対応する装置の対応するブロック又は項目又は特徴の記載も表す。

特定の実施要件に応じて、本発明の実施形態は、ハードウェア又はソフトウェアにおいて実施することができる。この実施はデジタル記憶媒体を使用して実施することができ、デジタル記憶媒体は、例えば、フロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ又はフラッシュメモリであり、デジタル記憶媒体には、それぞれの方法が実施されるようにプログラム可能コンピュータシステムと協働する（又は協働することが可能な）電子可読制御信号を記憶されている。

本発明によるいくつかの実施形態は、本明細書に記載されている方法の１つが実施されるようにプログラム可能コンピュータシステムと協働することが可能な電子可読制御信号を有するデータキャリアを含む。

一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータで作動すると、方法の１つを実施するように動作可能である。プログラムコードは、例えば、機械が読取り可能なキャリアに記憶されていてもよい。

他の実施形態は、本明細書に記載されている方法の１つを実施するためのコンピュータプログラムを含み、コンピュータプログラムは、機械が読取り可能なキャリア又は非一時的な記憶媒体に記憶されている。

言い換えれば、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータで実行されたときに本明細書に記載されている方法の１つを実施するためのプログラムコードを有するコンピュータプログラムである。

それゆえ、本発明の方法のさらなる実施形態は、本明細書に記載されている方法の１つを実施するためのコンピュータプログラムが記録されているデータキャリア（又はデジタル記憶媒体、又はコンピュータが読取り可能な媒体）である。

それゆえ、本発明の方法のさらなる実施形態は、本明細書に記載されている方法の１つを実施するためのコンピュータプログラムを表すデータストリーム又は信号の系列である。データストリーム又は信号の系列は、例えば、データ通信接続を介して、例えば、インターネットを介して送信されるように構成されていてもよい。

さらなる実施形態は、本明細書に記載されている方法の１つを実施するように構成され又は調整された処理手段、例えばコンピュータ、又はプログラム可能論理デバイスを含む。

さらなる実施形態は、本明細書に記載されている方法の１つを実施するためのコンピュータプログラムがインストールされているコンピュータを含む。

いくつかの実施形態において、プログラム可能な論理デバイス（例えば、フィールドプログラマブルゲートアレイ）が、本明細書に記載されている方法の機能のいくつか又はすべてを実施するために使用されてもよい。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書に記載されている方法の１つを実施するために、マイクロプロセッサと協働してもよい。一般的に、方法は、任意のハードウェア装置によって実施されることが有効である。

本発明はいくつかの実施形態に関して記載されているが、本発明の範囲内にある変更形態、置換形態、及び均等物が存在する。本発明の方法及び構成を実施する多くの代替的な様式が存在することも留意されたい。したがって、添付の特許請求の範囲は、本発明の真の精神及び範囲内にあるすべてのそのような変更形態、置換形態及び均等物を含むものとして解釈されることが意図されている。

１オーディオ復号器デバイス
２ビットストリーム受信機
３コア復号器モジュール
４時間エンベロープ生成器
５帯域幅拡張モジュール
６雑音発生器
７予備整形モジュール
８時間−周波数変換器
９時間−周波数変換器
１０コンバイナ
１１周波数−時間変換器
１２周波数範囲選択器
１３後整形モジュール
１４さらなる雑音発生器
１５さらなる予備整形モジュール
１６さらなる時間−周波数変換器
１７トーン発生器
１８トーン予備整形モジュール
１９時間−周波数変換器
２０コンバイナ
２１時間領域コア復号器
２２周波数領域コア復号器
２３制御パラメータ抽出器
２４整形利得計算器
ＢＳビットストリーム
ＥＡＳ符号化オーディオ信号
ＤＡＳ復号オーディオ信号
ＴＥＤ時間エンベロープ
ＢＥＦ周波数領域帯域幅拡張信号
ＮＯＳ雑音信号
ＳＮＳ整形済み雑音信号
ＦＮＳ周波数領域雑音信号
ＦＤＳ周波数領域復号オーディオ信号
ＢＦＳ帯域幅拡張済み周波数領域オーディオ信号
ＢＡＳ帯域幅拡張済み時間領域オーディオ信号
ＦＳＲ周波数範囲選択済み周波数領域雑音信号
ＳＩＳサイド情報信号
ＮＯＳＦさらなる雑音信号
ＳＮＳＦさらなる整形済み雑音信号
ＦＮＳＦさらなる周波数領域雑音信号
ＴＯＳトーン信号
ＳＴＳ整形済みトーン信号
ＦＴＳ周波数領域トーン信号
ＳＧ整形利得
ＣＰ制御パラメータ

Claims

ビットストリーム（ＢＳ）を復号するためのオーディオ復号器デバイス（１）であって、
前記ビットストリーム（ＢＳ）を受信し、前記ビットストリーム（ＢＳ）から符号化オーディオ信号（ＥＡＳ）を導出するように構成されているビットストリーム受信機（２）と、
前記符号化オーディオ信号（ＥＡＳ）から時間領域における復号オーディオ信号（ＤＡＳ）を導出するように構成されているコア復号器モジュール（３）と、
前記復号オーディオ信号（ＤＡＳ）の時間エンベロープ（ＴＥＤ）を決定するように構成されている時間エンベロープ生成器（４）と、
周波数領域帯域幅拡張信号（ＢＥＦ）を生成するように構成された帯域幅拡張モジュール（５）であって、時間領域における雑音信号（ＮＯＳ）を生成するように構成された雑音発生器（６）、整形済み雑音信号（ＳＮＳ）を生成するために前記復号オーディオ信号（ＤＡＳ）の前記時間エンベロープ（ＴＥＤ）に依存して前記雑音信号（ＮＯＳ）を時間的に整形するように構成された予備整形モジュール（７）、及び前記整形済み雑音信号（ＳＮＳ）を周波数領域雑音信号（ＦＮＳ）に変換するように構成された時間−周波数変換器（８）を有し、前記周波数領域帯域幅拡張信号（ＢＥＦ）は前記周波数領域雑音信号（ＦＮＳ）に依存する帯域幅拡張モジュール（５）と、
前記復号オーディオ信号（ＤＡＳ）を周波数領域復号オーディオ信号（ＦＤＳ）に変換するように構成された時間−周波数変換器（９）と、
帯域幅拡張済み周波数領域オーディオ信号（ＢＦＳ）を生成するために、前記周波数領域復号オーディオ信号（ＦＤＳ）と前記周波数領域帯域幅拡張信号（ＢＥＦ）とを一つにまとめるように構成されたコンバイナ（１０）と、
前記帯域幅拡張済み周波数領域オーディオ信号（ＢＦＳ）を帯域幅拡張済み時間領域オーディオ信号（ＢＡＳ）に変換するように構成された周波数−時間変換器（１１）と、を備えているオーディオ復号器デバイス（１）。
前記周波数領域帯域幅拡張信号（ＢＥＦ）をスペクトル帯域複製無しに生成する請求項１に記載のオーディオ復号器デバイス。
前記帯域幅拡張モジュール（５）は、前記雑音信号（ＮＯＳ）の前記時間的整形が過度強調的に行われるように構成されている請求項１及び２のいずれか一項に記載のオーディオ復号器デバイス。
前記帯域幅拡張モジュール（５）は、バンドパスフィルタのバンクによって前記雑音信号（ＮＯＳ）を別々の部分帯域雑音信号に分割し、前記部分帯域雑音信号の各々に対して特定の時間的整形を実行することによって、前記雑音信号（ＮＯＳ）の前記時間的整形が部分帯域的に行われるように構成されている請求項１から３のいずれか一項に記載のオーディオ復号器デバイス。
前記帯域幅拡張モジュール（５）は、前記周波数領域帯域幅拡張信号（ＢＥＦ）の周波数範囲を設定するように構成された周波数範囲選択器（１２）を備えている請求項１から４のいずれか一項に記載のオーディオ復号器デバイス。
前記帯域幅拡張モジュール（５）は、前記周波数領域帯域幅拡張信号（ＢＥＦ）を周波数領域において時間的に及び／又はスペクトル的に整形するように構成された後整形モジュールを備えている請求項１から５のいずれか一項に記載のオーディオ復号器デバイス。
前記ビットストリーム受信機（２）は、前記ビットストリーム（ＢＳ）からサイド情報信号（ＳＩＳ）を導出するように構成されており、前記帯域幅拡張モジュール（５）は、前記サイド情報信号（ＳＩＳ）に依存して前記周波数領域帯域幅拡張信号（ＢＥＦ）を生成するように構成されている請求項１から６のいずれか一項に記載のオーディオ復号器デバイス。
前記雑音発生器（６）は、前記サイド情報信号（ＳＩＳ）に依存して前記雑音信号（ＮＯＳ）を生成するように構成されている請求項７に記載のオーディオ復号器デバイス。
前記予備整形モジュール（７）は、前記サイド情報信号（ＳＩＳ）に依存して前記雑音信号（ＮＯＳ）を時間的に整形するように構成されている請求項７又は８のいずれか一項に記載のオーディオ復号器デバイス。
前記後整形モジュール（１３）は、前記サイド情報信号（ＳＩＳ）に依存して前記周波数領域帯域幅拡張信号（ＢＥＦ）を時間的に及び／又はスペクトル的に整形するように構成されている請求項７から９のいずれか一項に記載のオーディオ復号器デバイス。
前記帯域幅拡張モジュール（５）は、時間領域におけるさらなる雑音信号（ＮＯＳＦ）を生成するように構成されたさらなる雑音発生器（１４）と、さらなる整形済み雑音信号（ＳＮＳＦ）を生成するために前記復号オーディオ信号（ＤＡＳ）の前記時間エンベロープ（ＴＥＤ）に依存して前記さらなる雑音信号（ＮＯＳＦ）を時間的に整形するように構成されたさらなる予備整形モジュール（１５）と、前記さらなる整形済み雑音信号（ＳＮＳＦ）をさらなる周波数領域雑音信号（ＦＮＳＦ）に変換するように構成されたさらなる時間−周波数変換器（１６）と、を備え、前記周波数領域帯域幅拡張信号（ＢＥＦ）は前記さらなる周波数領域雑音信号（ＦＮＳＦ）に依存する請求項１から１０のいずれか一項に記載のオーディオ復号器デバイス。
前記帯域幅拡張モジュール（５）は、前記さらなる雑音信号（ＮＯＳＦ）の前記時間的整形が過度強調的に行われるように構成されている請求項１１に記載のオーディオ復号器デバイス。
前記帯域幅拡張モジュール（５）は、バンドパスフィルタのバンクによって前記さらなる雑音信号（ＮＯＳＦ）を別々のさらなる部分帯域雑音信号に分割し、前記さらなる部分帯域雑音信号の各々に対して特定の時間的整形を実行することによって、前記さらなる雑音信号（ＮＯＳＦ）の前記時間的整形が部分帯域的に行われるように構成されている請求項１１又は１２に記載のオーディオ復号器デバイス。
前記帯域幅拡張モジュール（５）は、時間領域におけるトーン信号（ＴＯＳ）を生成するように構成されたトーン発生器（１７）と、整形済みトーン信号（ＳＴＳ）を生成するために前記復号オーディオ信号（ＤＡＳ）の前記時間エンベロープ（ＴＥＤ）に依存して前記トーン信号（ＴＯＳ）を時間的に整形するように構成されたトーン予備整形モジュール（１８）と、前記整形済みトーン信号（ＳＴＳ）を周波数領域トーン信号（ＦＴＳ）に変換するように構成された時間−周波数変換器（１９）と、を備え、前記周波数領域帯域幅拡張信号（ＢＥＦ）は前記周波数領域トーン信号（ＦＴＳ）に依存する請求項１から１３のいずれか一項に記載のオーディオ復号器デバイス。
前記コア復号器モジュール（５）は、時間領域コア復号器（２１）及び周波数領域コア復号器（２２）を備え、前記時間領域コア復号器（２１）又は前記周波数領域コア復号器（２２）のいずれかが、前記符号化オーディオ信号（ＥＡＳ）から前記復号オーディオ信号（ＤＡＳ）を導出するために使用される請求項１から１４のいずれか一項に記載のオーディオ復号器デバイス。
制御パラメータ抽出器（２３）は、前記コア復号器モジュール（３）によって使用される制御パラメータ（ＣＰ）を前記復号オーディオ信号（ＤＡＳ）から抽出するように構成されており、前記帯域幅拡張モジュール（５）は、前記制御パラメータ（ＣＰ）に依存して前記周波数領域帯域幅拡張信号（ＢＥＦ）を生成するように構成されている請求項１５に記載のオーディオ復号器デバイス。
前記帯域幅拡張モジュール（５）は、前記復号オーディオ信号（ＤＡＳ）の前記時間エンベロープ（ＴＥＤ）に依存して前記予備整形モジュール（７）に関する整形利得（ＳＧ）を確立するように構成された整形利得計算器（２４）を備え、前記予備整形モジュール（７）は、前記予備整形モジュール（７）に関する前記整形利得（ＳＧ）に依存して前記雑音信号（ＮＯＳ）を時間的に整形するように構成されている請求項１から１６のいずれか一項に記載のオーディオ復号器デバイス。
前記予備整形モジュール（７）に関する整形利得（ＳＧ）を確立するための前記整形利得計算器（２４）は、前記制御パラメータ（ＣＰ）に依存して前記予備整形モジュール（７）に関する整形利得（ＳＧ）を確立するように構成されている請求項１６及び１７に記載のオーディオ復号器デバイス。
前記帯域幅拡張モジュール（５）は、前記復号オーディオ信号（ＤＡＳ）の前記時間エンベロープ（ＴＥＤ）に依存して前記さらなる予備整形モジュール（１５）に関する整形利得を確立するように構成されている整形利得計算器を備え、前記さらなる予備整形モジュール（１４）は、前記さらなる予備整形モジュール（１４）に関する前記整形利得に依存して前記さらなる雑音信号（ＮＯＳＦ）を時間的に整形するように構成されている請求項１１から１８のいずれか一項に記載のオーディオ復号器デバイス。
前記さらなる予備整形モジュール（１５）に関する整形利得を確立するための前記整形利得計算器は、前記制御パラメータ（ＣＰ）に依存して前記さらなる予備整形モジュール（１５）に関する整形利得を確立するように構成されている請求項１６及び１９に記載のオーディオ復号器デバイス。
前記帯域幅拡張モジュール（５）は、前記復号オーディオ信号（ＤＡＳ）の前記時間エンベロープ（ＴＥＤ）に依存して前記トーン予備整形モジュール（１８）に関する整形利得を確立するように構成された整形利得計算器を備え、前記トーン予備整形モジュール（１８）は、前記トーン予備整形モジュール（１８）に関する前記整形利得に依存して前記トーン信号（ＴＯＳ）を時間的に整形するように構成されている請求項１４から２０のいずれか一項に記載のオーディオ復号器デバイス。
前記トーン予備整形モジュール（１８）に関する整形利得を確立するための前記整形利得計算器は、前記制御パラメータ（ＣＰ）に依存して前記さらなる予備整形モジュール（１８）に関する整形利得を確立するように構成されている請求項１６及び２１に記載のオーディオ復号器デバイス。
ビットストリーム（ＢＳ）を復号するための方法であって、
ビットストリーム受信機（２）を使用して、前記ビットストリーム（ＢＳ）を受信し、前記ビットストリーム（ＢＳ）から符号化オーディオ信号（ＥＡＳ）を導出するステップと、
コア復号器モジュール（３）を使用して、前記符号化オーディオ信号（ＥＡＳ）から時間領域における復号オーディオ信号（ＤＡＳ）を導出するステップと、
時間エンベロープ生成器（４）を使用して、前記復号オーディオ信号（ＤＡＳ）の時間エンベロープ（ＴＥＤ）を決定するステップと、
帯域幅拡張モジュール（５）であって、
前記帯域幅拡張モジュール（５）の雑音発生器（６）を使用して時間領域における雑音信号（ＮＯＳ）を生成するステップ、
前記帯域幅拡張モジュール（５）の予備整形モジュール（７）を使用して、整形済み雑音信号（ＳＮＳ）を生成するために前記復号オーディオ信号（ＤＡＳ）の前記時間エンベロープ（ＴＥＤ）に依存して前記雑音信号（ＮＯＳ）を時間的に整形するステップ、及び
前記帯域幅拡張モジュール（５）の時間−周波数変換器（８）を使用して、前記整形済み雑音信号（ＳＮＳ）を周波数領域雑音信号（ＦＮＳ）に変換するステップであって、前記周波数領域帯域幅拡張信号（ＢＥＦ）が前記周波数領域雑音信号（ＦＮＳ）に依存するステップ、を実行する前記帯域幅拡張モジュール（５）を使用し、周波数領域帯域幅拡張信号（ＢＥＦ）を生成するステップと、
さらなる時間−周波数変換器（９）を使用して、前記復号オーディオ信号（ＤＡＳ）を周波数領域復号オーディオ信号（ＦＤＳ）に変換するステップと、
コンバイナ（１０）を使用して、帯域幅拡張済み周波数領域オーディオ信号（ＢＦＳ）を生成するために、前記周波数領域復号オーディオ信号（ＦＤＳ）と前記周波数領域帯域幅拡張信号（ＢＥＦ）とを組み合わせるステップと、
周波数−時間変換器（１１）を使用して、前記帯域幅拡張済み周波数領域オーディオ信号（ＢＦＳ）を帯域幅拡張済み時間領域オーディオ信号（ＢＡＳ）に変換するステップと、を含む方法。
プロセッサで作動すると請求項２３に記載の方法を実行するコンピュータプログラム。