JP2016541012A - 周波数領域における時間的予備整形雑音の挿入によるオーディオ帯域幅拡張 - Google Patents

周波数領域における時間的予備整形雑音の挿入によるオーディオ帯域幅拡張 Download PDF

Info

Publication number
JP2016541012A
JP2016541012A JP2016527226A JP2016527226A JP2016541012A JP 2016541012 A JP2016541012 A JP 2016541012A JP 2016527226 A JP2016527226 A JP 2016527226A JP 2016527226 A JP2016527226 A JP 2016527226A JP 2016541012 A JP2016541012 A JP 2016541012A
Authority
JP
Japan
Prior art keywords
signal
shaping
frequency domain
bandwidth extension
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016527226A
Other languages
English (en)
Other versions
JP6396459B2 (ja
Inventor
ザッシャ・ディッシュ
マルクス・ムルトゥルス
ベンジャミン・シューベルト
マルクス・シュネル
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2016541012A publication Critical patent/JP2016541012A/ja
Application granted granted Critical
Publication of JP6396459B2 publication Critical patent/JP6396459B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)

Abstract

本発明は、ビットストリームを復号するためのオーディオ復号器デバイスを提供し、オーディオ復号器デバイスは、ビットストリームを受信し、ビットストリームから符号化オーディオ信号を導出するように構成されたビットストリーム受信機と、符号化オーディオ信号から時間領域における復号オーディオ信号を導出するように構成されたコア復号器モジュールと、復号オーディオ信号の時間エンベロープを決定するように構成された時間エンベロープ生成器と、周波数領域帯域幅拡張信号を生成するように構成された帯域幅拡張モジュールであって、時間領域における雑音信号を生成するように構成された雑音発生器、整形済み雑音信号を生成するために復号オーディオ信号の時間エンベロープに依存して雑音信号を時間的に整形するように構成された予備整形モジュール、及び整形済み雑音信号を周波数領域雑音信号に変換するように構成された時間−周波数変換器を備え、周波数領域帯域幅拡張信号が周波数領域雑音信号に依存する帯域幅拡張モジュールと、復号オーディオ信号を周波数領域復号オーディオ信号に変換するように構成された時間−周波数変換器と、帯域幅拡張済み周波数領域オーディオ信号を生成するために、周波数領域復号オーディオ信号と周波数領域帯域幅拡張信号とを一つにまとめるように構成されたコンバイナと、帯域幅拡張済み周波数領域オーディオ信号を帯域幅拡張済み時間領域オーディオ信号に変換するように構成された周波数−時間変換器と、を備えている。【選択図】図1

Description

本発明は、音声及びオーディオコード化に関し、特に、オーディオ帯域幅拡張(BWE)に関する。
帯域幅拡張技法は、有効出力帯域幅を拡げることによってオーディオコーデックの知覚可能な品質を増強することに焦点を当てている。基礎となるコアコーダによって帯域幅範囲全体をコード化する代わりに、帯域幅拡張技法を使用するコーデックは、知覚的にあまり重要でない高周波数(HF)範囲におけるビット消費を少なくすることを可能にする。したがって、より高い精度でより重要な低周波数(LF)範囲を処理するコアコーダに利用可能なより多くのビットが存在する。かかる理由から、低ビットレートにおいて適切な知覚品質を実現する必要があるコーデックにおいて、帯域幅拡張技法が一般的に使用されている。
一般的に、区別すべき2つの異なる基本的な帯域幅拡張手法、すなわちブラインド帯域幅拡張(blind bandwidth extension)と誘導帯域幅拡張(guided bandwidth extension)がある。ブラインド帯域幅拡張では、追加のサイド情報は送信されない。したがって、復号器側で挿入されるべきHF内容(HF-content)は、コアコーダの復号LF信号から導出された情報のみを使用して生成される。コストのかかるサイド情報の送信が不要なため、ブラインド帯域幅拡張技法は、最も低いビットレートにおいて動作するコーデック又は下位互換性後処理手順に好適である。一方で、可制御性の欠如により、ブラインド帯域幅拡張を使用して、相対的に小さい帯域幅の有効拡張しかできない(例えば、[1]において6.4〜7.0kHz)。ブラインド手法とは対照的に、誘導帯域幅拡張では、パラメータを使用してHF内容が再構築され、パラメータは、符号化器側で抽出され、ビットストリームにおけるサイド情報として復号器に送信される。このため、誘導帯域幅拡張は、HF再構築のより良好な制御を可能にし、より広い有効帯域幅を可能にする。追加のビット消費に起因して、誘導帯域幅拡張技法は、ブラインド帯域幅拡張を組み込んでいるシステムのように、より高いビットレートにおいて動作するコーデックによく使用される。
より詳細には、帯域幅拡張を実現するための複数の異なる方法論がある。
音声コード化においては、通常、ソースフィルタモデルベースの帯域幅拡張方法が使用され、これらの帯域幅拡張方法は、例えば、G.722.2(AMR−WB)に示されているような、それらの基礎となるコアコーダと密接に関係付けられている[1]。AMR−WBにおいて、ACELP(代数符号励振線形予測)コアコーダの6.4kHzの出力帯域幅は、励振領域内に白色雑音を注入することによって、7.0kHzまで拡張される。その後、拡張された励振は、コアコーダの線形予測(LP)フィルタから導出されたフィルタによって整形される。ビットレートに依存して、挿入された雑音のスケーリングについての利得は、コアコーダ情報のみを使用して推定されるか、又は、この利得は、符号化器において抽出され送信される。この帯域幅拡張方法は、その基礎となるコード化方式に大きく依存する。なぜなら、この帯域幅拡張方法は、その合成メカニズムを使用しており、同じ領域内で追加的に実施されなければならないためである。
オーディオコード化における公知のコアコーダ独立型帯域幅拡張技法(core coder independent bandwidth extension technique)は、スペクトル帯域複製(SBR)である[2]。上述の例とは対照的に、スペクトル帯域複製は、その基礎となるコアコーダから独立して適用することができる。第1のステップとして、例えば、直交ミラーフィルタ分析フィルタバンク(QMF)を使用することによって、符号化器側で入力信号がLF部分とHF部分とに分割される。LF信号はコアコーダに供給され、一方で、HF部分はスペクトル帯域複製によって処理される。それゆえ、LF信号に対するHF信号のトーナリティ/ノイズネスもHF信号の時間周波数エンベロープも記述するパラメータが抽出され、送信される。復号後、信号は、符号化器において使用されているものと同じタイプの分析フィルタバンクを使用して変換される。HF内容を再構築するために、復号信号は、HF範囲に部分的に複製され、ミラーリングされ又は転置され、そして、元のもののトーナリティ/ノイズネスに一致するように後処理され、送信されたパラメータを考慮して時間的にかつスペクトル的に整形される。その後、時間領域出力信号が、対応する合成フィルタバンクによって生成される。
上記の(セミ)パラメトリック法とは対照的に、複数のビットレート選択的なレイヤを帯域幅拡張に使用するマルチレイヤ手法も存在する。この原理は、スケーラブルコード化方式にも密接に関係付けられている。それらの技法は、既存のコード化システムを相互運用可能に拡張するために使用されることが多い。[3]において、G.711.1及びG.722のための超広帯域(SWB)帯域幅拡張が提示されており、SWB帯域幅拡張は、コアコーダから独立した修正離散コサイン変換(MDCT)ベースのコード化方式を用いて追加の帯域幅(8.0〜14.4kHz)を処理する。この手法は、HF部分の正確な再構築を可能にするが、高いビット消費が追加的に必要になるという犠牲が伴う。
上述の帯域幅拡張手法は、現行の音声及びオーディオコード化システムにおいて広く普及しているが、それらすべてにそれぞれ特定の欠点又は不都合があることが明らかになっている。
[1]Bessette, B.; et al.: "The Adaptive Multirate Wideband Speech Codec (AMR-WB)", IEEE Transactions on Speech and Audio Processing, Vol. 10, No. 8, November 2002 [2]Dietz, M.; et al.: "Spectral Band Replication, a novel approach in audio coding", Proceedings of the 112th AES Convention, May 2002 [3]Miao, L.; et al.: "G.711.1 Annex D and G.722 Annex B _ New ITU-T Super Wideband Codecs", IEEE ICASSP 2011, pp. 5232-5235
本発明の目的は、帯域幅拡張の改善された概念を提供することである。
この目的は、ビットストリームを復号するための復号器デバイスによって達成され、オーディオ復号器デバイスは、
ビットストリームを受信し、ビットストリームから符号化オーディオ信号を導出するように構成されているビットストリーム受信機と、
符号化オーディオ信号から時間領域における復号オーディオ信号を導出するように構成されているコア復号器モジュールと、
復号オーディオ信号の時間エンベロープを決定するように構成されている時間エンベロープ生成器と、
周波数領域帯域幅拡張信号を生成するように構成されている帯域幅拡張モジュールであって、帯域幅拡張モジュールは、時間領域における雑音信号を生成するように構成されている雑音発生器を備え、帯域幅拡張モジュールは、整形済み雑音信号を生成するために復号オーディオ信号の時間エンベロープに依存して雑音信号を時間的に整形するように構成されている予備整形モジュールを備え、帯域幅拡張モジュールは、整形済み雑音信号を周波数領域雑音信号に変換するように構成されている時間−周波数変換器を備え、周波数領域帯域幅拡張信号は、周波数領域雑音信号に依存する、帯域幅拡張モジュールと、
復号オーディオ信号を周波数領域復号オーディオ信号に変換するように構成されている時間−周波数変換器と、
帯域幅拡張済み周波数領域オーディオ信号を生成するために、周波数領域復号オーディオ信号と周波数領域帯域幅拡張信号とを一つにまとめるように構成されているコンバイナと、
帯域幅拡張済み周波数領域オーディオ信号を帯域幅拡張済み時間領域オーディオ信号に変換するように構成されている周波数−時間変換器と、を備える。
本発明は、基礎となるコアコード化技法から独立して基本的に適用することができる帯域幅拡張概念を提供する。また、本発明は、特に音声信号について高い知覚品質で、低ビットレート動作点について超広帯域周波数範囲までの帯域幅拡張をもたらす。これは、時間領域における時間的に整形された雑音信号を生成することによって達成され、これらの雑音信号は、変換され、周波数領域復号オーディオ信号に挿入される。
周波数領域帯域幅拡張信号という用語は、復号オーディオ信号に含まれない周波数を含む信号を指す。
例えば音声音響統合符号化(MPEG−D USAC)に含まれているような2つ以上の単一コアコーダを組み込んでいる柔軟な信号適応システムにおいて、異なるコアコーダ間の遷移に起こるアーティファクトを切り替えることは、帯域幅拡張も同時に切り替えられなければならないため、強調される場合がある。これらの問題は、本発明によるコアコーダ独立型帯域幅拡張技法を適用することによって克服することができる。
スペクトル帯域複製はアーティファクトを導入する。これらのアーティファクトは、特にHF部分へのLF成分のパッチングによって音声がコード化されるときに厄介になる場合がある。一方では、それらのアーティファクトは、LF内容とパッチングされたHF内容の相関に起因して生じる。他方では、LF部分とHF部分との間における可能性のあるスペクトルの不整合は、鋭い鳴りの不調和な歪みをもたらす。それとは対照的に、本発明による復号器デバイスは、アーティファクトや鋭い鳴りの生成を回避する。
スペクトル帯域複製の他の欠点は、パッチングされたHF部分の時間的構造を操作する可能性が制約されることである。内容のビットレート効率的なパラメトリック時間周波数表現の必要性に起因して、時間分解能が制限される。これは、例えば、声門パルスのピッチが高く大きい時間的可変性も呈する女性の音声の処理にとって不利になる場合がある。本発明による復号器デバイスは、スペクトル帯域複製とは対照的に、女性の音声の再現に好適である。
最後に、複数のレイヤに基づく帯域幅拡張は、スペクトル的にも時間的にも正確にHF内容を再構築することが可能であるが、一方では、その必要なビット消費が、パラメトリック手法よりも著しく高い。本発明による復号器デバイスは、そのような手法が強いるビット消費を低減する。
したがって、本発明は、公知の前述した帯域幅拡張技法の利点をそれらの欠点をなくしながら組み合わせる新規の帯域幅拡張概念を提供する。より詳細には、基礎となるコアコーダから独立していながら、低ビットレートにおいて高品質の超広帯域音声コード化を可能にする概念が提供される。
本発明は、特に音声について高い知覚品質で、超広帯域範囲までの出力帯域幅をもたらす。本発明による帯域幅拡張は、雑音挿入に基づく。加えて、新規の帯域幅拡張は、その基礎となるコアコーデックから独立している。それゆえ、新規の帯域幅拡張は、標準的な音声コード化帯域幅拡張とは対照的に、根本的に異なるコード化方式を組み込んだ切り替え型システム上で使用されるのに適している。
新規に提案された帯域幅拡張の信号とコアコーダの信号のミキシングが、スペクトル帯域複製に同等の時間周波数表現で実行されると、フレームごとのシームレスな切替え又は所与のフレーム内でのブレンドが可能であり得る組み合わされたシステムで、両技法が容易に組み合わされ得る。新規の帯域幅拡張は主に音声に焦点を当てているため、この手法は、音楽又は混合内容を含む信号を処理するのに好ましい場合がある。送信されたサイド情報によって、又はコア信号を分析することで復号器内において導出されたパラメータによって、切替えを制御することができる。
本発明によれば、雑音の生成と後続の整形は時間領域において行われる。なぜなら、フィルタバンクが、ピッチの高い(例えば、女性の)音声を再現するのに必須である時間分解能を制限するため、時間領域において、時間分解能は、スペクトル帯域複製処理において適用されるものと同様の、時間周波数表現内で雑音が生成され整形されるソリューションにおけるものよりも高くなることがあるからである。
上述の問題を回避し、かつ要件を満たすために、新規の帯域幅拡張は、以下の処理ステップを実行する。最初に、単一雑音信号が時間領域において生成される。ここで、サンプルの数は、システムのフレームレート並びに選択されたサンプリングレート及び雑音信号の帯域幅から生じる。その後、雑音信号は、コアコーダの復号信号の時間エンベロープに基づいて、時間的に予備整形される。また、組み合わされた時間周波数表現信号は、逆変換によって帯域幅拡張済み時間領域オーディオ信号に変換される。
帯域幅拡張技法は、有効出力帯域幅を拡げることによって知覚品質を増強するための、音声とオーディオのコード化によく使用される。したがって、利用可能なビットの大部分はコアコーダ内で使用することができ、より重要な低周波数範囲でより高い精度が得られる。既存の手法が存在し、それらのいくつかは広く受け入れられているが、これらの手法はすべて、異なるコード化方式に基づく複数の切替え可能なコアコーダを組み込んだシステムによる音声処理に対する実行可能性を欠いている。本発明による帯域幅拡張はコア復号器技術から独立しているため、本発明は、上述の用途などに完全に適した帯域幅拡張技法を提案する。
本発明による帯域幅拡張内では、時間エンベロープを有する全合成拡張信号が生成されてもよい。時間エンベロープは、予備整形することができ、それによって、基礎となるコアコーダ信号に適応することができる。拡張信号の時間エンベロープの整形は、帯域幅拡張後整形プロセスで利用される純粋なフィルタバンク又は変換領域内で利用可能な時間分解能よりも大幅に高い時間分解能で行うことができる。
本発明の好ましい実施形態によれば、周波数領域帯域幅拡張信号は、スペクトル帯域複製無しに生成される。これらの特徴によって、必要な計算労力を最小限に抑えることができる。
本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、雑音信号の時間的整形が過度強調的に行われるように構成されている。復号オーディオ信号の元の時間エンベロープに基づいて雑音信号を整形する代わりに、この整形を過度強調的に実行することも可能である。これは、時間エンベロープに基づいて予備整形利得を導出する前に、時間エンベロープを振幅に関して分散させることによって、言い換えれば、動的拡張によって、特に、測定されたエンベロープを修正して、測定されたものよりもはるかに鋭いパルスを表すことによって、実現することができる。この過度強調は実際の元のエンベロープを表さないが、例えば母音のようないくつかの信号部分の明瞭性が、非常に低いビットレートに対して改善する。
本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、雑音信号の時間的整形が、バンドパスフィルタのバンクによって雑音信号をいくつかの部分帯域雑音信号に分割し、部分帯域雑音信号の各々に対して特定の時間的整形を実施することによって、部分帯域的(subband-wise)に行われるように構成されている。
雑音信号を均一に予備整形する代わりに、バンドパスフィルタのバンクによって雑音信号をいくつかの部分帯域に分割し、すべての部分帯域信号に対して特定の整形を実施することによって、整形をより精密に行うことができる。
本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、周波数領域帯域幅拡張信号の周波数範囲を設定するように構成された周波数範囲選択器を備えている。整形済み雑音信号を時間周波数表現に変換した後、帯域幅拡張済み周波数領域オーディオ信号の目標帯域を選択することができ、必要な場合には、所望のスペクトル位置にシフトすることもできる。これらの特徴により、帯域幅拡張済み時間領域オーディオ信号の周波数範囲を容易に選択することができる。
本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、周波数領域帯域幅拡張信号を周波数領域において時間的に及び/又はスペクトル的に整形するように構成された後整形モジュールを備えている。これらの特徴により、周波数領域帯域幅拡張信号を、改良のための追加の時間的傾向及び/又はスペクトルエンベロープに対して適応させることができる。
本発明の好ましい実施形態によれば、ビットストリーム受信機は、ビットストリームからサイド情報信号を導出するように構成されており、帯域幅拡張モジュールは、サイド情報信号に依存して周波数領域帯域幅拡張信号を生成するように構成されている。言い換えれば、符号化器内で抽出されビットストリームを介して送信された追加のサイド情報は、周波数領域帯域幅拡張信号のさらなる改良のために適用することができる。これらの特徴により、帯域幅拡張済み時間領域オーディオ信号の知覚品質をさらに増大することができる。
本発明の好ましい実施形態によれば、雑音発生器は、サイド情報信号に依存して雑音信号を生成するように構成されている。この実施形態において、雑音発生器は、帯域幅拡張済み時間領域オーディオ信号の知覚品質をさらに改善するために、スペクトル的に平坦な白色雑音の代わりに、スペクトル傾斜を有する雑音信号を得るように制御することができる。
本発明の好ましい実施形態によれば、予備整形モジュールは、サイド情報信号に依存して雑音信号を時間的に整形するように構成されている。予備整形内で、サイド情報は、例えば、予備整形に使用されるコア復号器信号のある目標帯域幅を選択するために使用することができる。
本発明の好ましい実施形態によれば、後整形モジュールは、サイド情報信号に依存して周波数領域出力雑音信号を時間的に及び/又はスペクトル的に整形するように構成されている。後整形においてサイド情報を使用することにより、周波数領域帯域幅拡張信号の粗い時間周波数エンベロープが元のエンベロープに従うことが保証され得る。
本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、時間領域におけるさらなる雑音信号を生成するように構成されたさらなる雑音発生器と、さらなる整形済み雑音信号を生成するために復号オーディオ信号の時間エンベロープに依存してさらなる雑音信号を時間的に整形するように構成されたさらなる予備整形モジュールと、さらなる整形済み雑音信号をさらなる周波数領域雑音信号に変換するように構成されたさらなる時間−周波数変換器と、を備え、周波数領域帯域幅拡張信号は、さらなる周波数領域雑音信号に依存する。2つ以上の周波数領域雑音信号を使用して周波数領域帯域幅拡張信号を生成することにより、帯域幅拡張済み時間領域オーディオ信号の知覚品質を増大させることができる。
本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、さらなる雑音信号の時間的整形が過度強調的に行われるように構成されている。復号オーディオ信号の元の時間エンベロープに基づいてさらなる雑音信号を整形する代わりに、この整形を過度強調的に実施することも可能である。これは、時間エンベロープに基づいて予備整形利得を導出する前に、時間エンベロープを振幅に関して分散させることによって実現することができる。この過度強調は実際の元のエンベロープを表さないが、例えば母音のようないくつかの信号部分の明瞭性が、非常に低いビットレートに対して改善される。
本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、さらなる雑音信号の時間的整形が、バンドパスフィルタのバンクによってさらなる雑音信号を別々のさらなる部分帯域雑音信号に分割し、さらなる部分帯域雑音信号の各々に対して特定の時間的整形を実行することによって、部分帯域的に行われるように構成されている。
さらなる雑音信号を均一に予備整形する代わりに、整形は、バンドパスフィルタのバンクによってさらなる雑音信号を別々の部分帯域に分割し、すべての部分帯域信号に対して特定の整形を実行することによって、より精密に行うことができる。
本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、時間領域におけるトーン信号を生成するように構成されたトーン発生器と、整形済みトーン信号を生成するために復号オーディオ信号の時間エンベロープに依存してトーン信号を時間的に整形するように構成された予備整形モジュールと、整形済みトーン信号を周波数領域トーン信号に変換するように構成された時間−周波数変換器と、を備え、周波数領域帯域幅拡張信号は、周波数領域トーン信号に依存する。
前記トーン発生器は、すべての種類のトーン、例えば、正弦波トーン、三角波トーン及び方形波トーン、のこぎり歯トーン、人口有声音声に似たパルスなどを生成するように機能することができる。合成雑音信号の処理に加えて、時間領域における合成トーン成分を生成することも可能であり、合成トーン成分は、時間的に整形され、その後周波数表現に変換される。この場合、時間領域における整形は、例えば、トーンのADSR(立ち上がり、減衰、保持、余韻)相を精密にモデル化するのに有益であり、これは、一般的な周波数領域表現では可能ではない。周波数領域トーン信号を追加的に使用することにより、帯域幅拡張済み時間領域信号の品質をさらに増大させることができる。
本発明の好ましい実施形態によれば、コア復号器モジュールは、時間領域コア復号器及び周波数領域コア復号器を備え、時間領域コア復号器又は周波数領域コア復号器のいずれかは、符号化オーディオ信号から復号オーディオ信号を導出するために使用される。これらの特徴は、音声音響統合符号化(MPEG−D USAC)環境において本発明を使用することを可能にする。
本発明の好ましい実施形態によれば、制御パラメータ抽出器は、コア復号器モジュールによって使用される制御パラメータを復号オーディオ信号から抽出するように構成されており、帯域幅拡張モジュールは、制御パラメータに依存して周波数領域帯域幅拡張信号を生成するように構成されている。周波数領域帯域幅拡張信号は、コアコーダエンベロープに基づいて無条件に(blindly)生成されるか、又はコアコーダ信号から導出されたパラメータによって制御されてもよいが、周波数領域帯域幅拡張信号は、符号化器から抽出及び送信されたパラメータにより、部分的に誘導されて生成することもできる。
本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、復号オーディオ信号の時間エンベロープに依存して予備整形モジュールに関する整形利得を確立するように構成された整形利得計算器を備え、予備整形モジュールは、予備整形モジュールに関する整形利得に依存して雑音信号を時間的に整形するように構成されている。これらの特徴により、本発明の容易な実施が可能になる。
本発明の好ましい実施形態によれば、予備整形モジュールに関する整形利得を確立するための整形利得計算器は、制御パラメータに依存して予備整形モジュールに関する整形利得を確立するように構成されている。これらの特徴により、本発明の容易な実施が可能になる。
本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、復号オーディオ信号の時間エンベロープに依存してさらなる予備整形モジュールに関する整形利得を確立するように構成された整形利得計算器を備え、さらなる予備整形モジュールは、さらなる予備整形モジュールに関する整形利得に依存してさらなる雑音信号を時間的に整形するように構成されている。
本発明の好ましい実施形態によれば、さらなる予備整形モジュールに関する整形利得を確立するための整形利得計算器は、制御パラメータに依存してさらなる予備整形モジュールに関する整形利得を確立するように構成されている。
本発明の好ましい実施形態によれば、帯域幅拡張モジュールは、復号オーディオ信号の時間エンベロープに依存してトーン予備整形モジュールに関する整形利得を確立するように構成された整形利得計算器を備え、トーン予備整形モジュールは、トーン予備整形モジュールに関する整形利得に依存してトーン信号を時間的に整形するように構成されている。
本発明の好ましい実施形態によれば、トーン予備整形モジュールに関する整形利得を確立するための整形利得計算器は、制御パラメータに依存してさらなる予備整形モジュールに関する整形利得を確立するように構成されている。
さらなる態様において、ビットストリームを復号するための方法によって本発明の目的が達成される。その方法は、
ビットストリーム受信機を使用して、ビットストリームを受信し、ビットストリームから符号化オーディオ信号を導出するステップと、
コア復号器モジュールを使用して、符号化オーディオ信号から時間領域における復号オーディオ信号を導出するステップと、
時間エンベロープ生成器を使用して、復号オーディオ信号の時間エンベロープを決定するステップと、
帯域幅拡張モジュールであって、
帯域幅拡張モジュールの雑音発生器を使用して時間領域における雑音信号を生成するステップ、
帯域幅拡張モジュールの予備整形モジュールを使用して、整形済み雑音信号を生成するために復号オーディオ信号の時間エンベロープに依存して雑音信号を時間的に整形するステップ、
帯域幅拡張モジュールの時間−周波数変換器を使用して、整形済み雑音信号を周波数領域雑音信号に変換するステップであって、周波数領域帯域幅拡張信号が周波数領域雑音信号に依存するステップ、を実行する帯域幅拡張モジュールを使用し、周波数領域帯域幅拡張信号を生成するステップと、
さらなる時間−周波数変換器を使用して、復号オーディオ信号を周波数領域復号オーディオ信号に変換するステップと、
コンバイナを使用して、帯域幅拡張済み周波数領域オーディオ信号を生成するために、周波数領域復号オーディオ信号と周波数領域帯域幅拡張信号とを組み合わせるステップと、
周波数−時間変換器を使用して、帯域幅拡張済み周波数領域オーディオ信号を帯域幅拡張済み時間領域オーディオ信号に変換するステップと、を含むものである。
さらなる態様では、本発明の目的が、プロセッサで作動すると本発明の方法を実行するコンピュータプログラムによって達成される。
本発明によるオーディオ復号器デバイスの第1の実施形態を示す概略図である。 本発明によるオーディオ復号器デバイスの第2の実施形態を示す概略図である。 本発明によるオーディオ復号器デバイスの第3の実施形態を示す概略図である。 本発明によるオーディオ復号器デバイスの第4の実施形態を示す概略図である。
続いて、添付の図面に関連して、本発明の好ましい実施形態を説明する。
図1は、本発明によるオーディオ復号器デバイスの第1の実施形態を概略図において示す。
オーディオ復号器デバイス1は、
ビットストリームBSを受信し、ビットストリームBSから符号化オーディオ信号EASを導出するように構成されたビットストリーム受信機2と、
符号化オーディオ信号EASから時間領域における復号オーディオ信号DASを導出するように構成されたコア復号器モジュール3と、
復号オーディオ信号DASの時間エンベロープTEDを決定するように構成された時間エンベロープ生成器4と、
周波数領域帯域幅拡張信号BEFを生成するように構成された帯域幅拡張モジュール5であって、時間領域における雑音信号NOSを生成するように構成された雑音発生器6、整形済み雑音信号SNSを生成するために復号オーディオ信号DASの時間エンベロープTEDに依存して雑音信号NOSを時間的に整形するように構成された予備整形モジュール7、及び、整形済み雑音信号SNSを周波数領域雑音信号FNSに変換するように構成された時間−周波数変換器8を備え、周波数領域帯域幅拡張信号BEFは周波数領域雑音信号FNSに依存する帯域幅拡張モジュール5と、
復号オーディオ信号DASを周波数領域復号オーディオ信号FDSに変換するように構成された時間−周波数変換器9と、
帯域幅拡張済み周波数領域オーディオ信号BFSを生成するために、周波数領域復号オーディオ信号FDSと周波数領域帯域幅拡張信号BEFとを組み合わせるように構成されたコンバイナ10と、
帯域幅拡張済み周波数領域オーディオ信号BFSを帯域幅拡張済み時間領域オーディオ信号BASに変換するように構成されている周波数−時間変換器11と、を備えている。
本発明は、基礎となるコアコード化技法から独立して基本的に適用することができる帯域幅拡張概念を提供する。また、本発明は、特に音声信号について高い知覚品質で、低ビットレート動作点について超広帯域周波数範囲までの帯域幅拡張をもたらす。これは、時間領域における時間的に整形された雑音信号SNSを生成することによって達成され、これらの雑音信号は、変換され、周波数領域復号オーディオ信号FDSに挿入される。
例えば音声音響統合符号化(MPEG−D USAC)に含まれているような2つ以上の単一コアコーダを組み込んでいる柔軟な信号適応システムにおいて、異なるコアコーダ間の遷移に起こるアーティファクトを切り替えることは、帯域幅拡張も同時に切り替えられなければならないため、強調される場合がある。これらの問題は、本発明によるコアコーダ独立型帯域幅拡張技法を適用することによって克服することができる。
スペクトル帯域複製はアーティファクトを導入し、これらのアーティファクトは、HF部分へのLF成分のパッチングによって、特に音声がコード化されるときに、厄介となる場合がある。一方では、それらのアーティファクトは、LF内容及びパッチングされたHF内容の相関に起因して生じる。他方では、LF部分とHF部分との間の可能性のあるスペクトル不整合は、鋭い鳴りの不調和な歪みをもたらす。それとは対照的に、本発明による復号器デバイス1は、アーティファクト及び鋭い鳴りを生成することを回避する。
スペクトル帯域複製の別の欠点は、パッチングされたHF部分の時間的構造を操作する可能性を欠くことである。内容のビットレート効率的なパラメトリック時間周波数表現の必要性に起因して、時間分解能が制限される。これは、例えば、声門パルスのピッチが高く大きい時間的可変性も呈する女性の音声の処理に対し不都合となる場合がある。本発明による復号器デバイス1は、スペクトル帯域複製とは対照的に、女性の音声の再現に好適である。
最後に、複数のレイヤに基づく帯域幅拡張は、スペクトル的にも時間的にも正確にHF内容を再構築することが可能であるが、一方では、その必要なビット消費が、パラメトリック手法よりも著しく高い。本発明による復号器デバイス1は、そのような手法で強いられるビット消費を低減する。
したがって、本発明は、公知の前述の帯域幅拡張技法の利点をそれらの欠点をなくしながら組み合わせる新規の帯域幅拡張概念を提供する。より詳細には、基礎となるコアコーダ3から独立していながら、低ビットレートにおいて高品質の超広帯域音声コード化を可能にする概念が提供される。
本発明は、特に音声について高い知覚品質で、超広帯域範囲までの出力帯域幅をもたらす。本発明による帯域幅拡張は、雑音挿入に基づく。加えて、新規の帯域幅拡張は、その基礎となるコアコーデックから独立している。それゆえ、新規の帯域幅拡張は、標準的な音声コード化帯域幅拡張とは対照的に、根本的に異なるコード化方式を組み込んだ切り替え型システム上で使用されるのに適している。
新規に提案された帯域幅拡張の信号とコアコーダの信号とのミキシングが、スペクトル帯域複製に同等の時間周波数表現において実行されると、両技法は、フレームごとのシームレスな切替え又は所与のフレーム内でのブレンドが可能となり得る組み合わされたシステムで、容易に組み合わされ得る。新規の帯域幅拡張は主に音声に焦点を当てているため、この手法は、音楽又は混合内容を含む信号を処理するのに好ましい場合がある。送信されたサイド情報によって、又はコア信号DASを分析することで復号器3内で導出されたパラメータによって、切替えを制御することができる。
本発明によれば、雑音の生成及び後続の整形は時間領域において行われる。なぜなら、フィルタバンクが、ピッチの高い(例えば、女性の)音声を再現するのに必須である時間分解能を制限するため、時間領域において、時間分解能は、スペクトル帯域複製処理において適用されるものと同様の、時間周波数表現内で雑音が生成され整形されるソリューションにおけるものよりも高くなることがあるからである。
上述の問題を回避し、かつ要件を満たすために、新規の帯域幅拡張は、以下の処理ステップを実行する。最初に、単一雑音信号NOSが時間領域において生成され、ここで、サンプルの数は、システムのフレームレート並びに選択されたサンプリングレート及び雑音信号の帯域幅から生じる。その後、雑音信号NOSは、コアコーダの復号信号DASの時間エンベロープTEDに基づいて、時間的に予備整形される。また、組み合わされた時間周波数表現信号BFSは、逆変換によって帯域幅拡張済み時間領域オーディオ信号BASに変換される。
帯域幅拡張技法は、有効出力帯域幅を拡げることによって知覚品質を増強するための音声及びオーディオコード化でよく使用されている。したがって、利用可能なビットの大部分はコアコーダ3内で使用することができ、より重要な低周波数範囲でより高い精度が得られる。既存の手法が存在し、それらのいくつかは広く受け入れられているが、これらの手法はすべて、異なるコード化方式に基づいて複数の切替え可能なコアコーダを組み込んだシステムによる音声処理に対する実行可能性を欠いている。本発明による帯域幅拡張はコア復号器技術から独立しているため、本発明は、上述の用途などに完全に適した帯域幅拡張技法を提案する。
本発明による帯域幅拡張内で全合成拡張信号が生成されてもよい。全合成拡張信号は時間エンベロープを有し、時間エンベロープは、予備整形することができ、それによって、基礎となるコアコーダ信号DASに適応することができる。拡張信号SNSの時間エンベロープの整形は、帯域幅拡張後整形プロセスにおいて利用される純粋なフィルタバンク又は変換領域内で利用可能な時間分解能よりも大幅に高い時間分解能で行うことができる。
本発明の好ましい実施形態によれば、周波数領域帯域幅拡張信号BEFは、スペクトル帯域複製なしに生成される。これらの特徴によって、必要な計算労力を最小限に抑えることができる。
本発明の好ましい実施形態によれば、帯域幅拡張モジュール5は、雑音信号NOSの時間的整形が過度強調的に行われるように構成されている。復号オーディオ信号DASの元の時間エンベロープTEDに基づいて雑音信号NOSを整形する代わりに、この整形を過度強調的に実施することも可能である。これは、時間エンベロープTEDに基づいて予備整形利得を導出する前に、時間エンベロープTEDを振幅に関して分散させることによって実現することができる。この過度強調は実際の元のエンベロープTEDを表さないが、例えば母音のようないくつかの信号部分の明瞭性が、非常に低いビットレートに対して改善する。
本発明の好ましい実施形態によれば、帯域幅拡張モジュール5は、雑音信号NOSの時間的整形が、バンドパスフィルタのバンクによって雑音信号NOSを別々の部分帯域雑音信号に分割し、部分帯域雑音信号の各々に対して特定の時間的整形を実施することによって、部分帯域的に行われるように構成されている。
雑音信号NOSを均一に予備整形する代わりに、整形は、バンドパスフィルタのバンクによって雑音信号NOSを別々の部分帯域に分割し、すべての部分帯域信号に対して特定の整形を実施することによって、より精密に行うことができる。
また、本発明は、ビットストリームBSを復号するための方法に関し、方法は、
ビットストリーム受信機2を使用して、ビットストリームBSを受信し、ビットストリームBSから符号化オーディオ信号EASを導出するステップと、
コア復号器モジュール3を使用して、符号化オーディオ信号EASから時間領域における復号オーディオ信号DASを導出するステップと、
時間エンベロープ生成器4を使用して、復号オーディオ信号DASの時間エンベロープTEDを決定するステップと、
帯域幅拡張モジュール5であって、
前記帯域幅拡張モジュール5の雑音発生器6を使用して時間領域における雑音信号NOSを生成するステップ、
帯域幅拡張モジュール5の予備整形モジュール7を使用して、整形済み雑音信号SNSを生成するために復号オーディオ信号DASの時間エンベロープTEDに依存して雑音信号NOSを時間的に整形するステップ、及び
帯域幅拡張モジュール5の時間−周波数変換器8を使用して、整形済み雑音信号SNSを周波数領域雑音信号FNSに変換するステップであって、周波数領域帯域幅拡張信号BEFが周波数領域雑音信号FNSに依存するステップを実行する、帯域幅拡張モジュール5を使用し、周波数領域帯域幅拡張信号BEFを生成するステップと、
さらなる時間−周波数変換器9を使用して、復号オーディオ信号DASを周波数領域復号オーディオ信号FDSに変換するステップと、
コンバイナ10を使用して、帯域幅拡張済み周波数領域オーディオ信号BFSを生成するために、周波数領域復号オーディオ信号FDSと周波数領域帯域幅拡張信号BEFとを組み合わせるステップと、
周波数−時間変換器11を使用して、帯域幅拡張済み周波数領域オーディオ信号BFSを帯域幅拡張済み時間領域オーディオ信号BASに変換するステップと、を含む。
その上、本発明は、プロセッサで作動すると本発明による方法を実行するコンピュータプログラムに関する。
図2は、本発明によるオーディオ復号器デバイスの第2の実施形態を概略図において示す。
本発明の好ましい実施形態によれば、帯域幅拡張モジュール5は、周波数領域帯域幅拡張信号BEFの周波数範囲を設定するように構成された周波数範囲選択器12を備えている。整形済み雑音信号SNSを時間周波数表現FNSに変換した後、帯域幅拡張済み周波数領域オーディオ信号BEFの目標帯域を選択することができ、必要な場合には、所望のスペクトル位置にシフトすることもできる。これらの特徴により、帯域幅拡張済み時間領域オーディオ信号BASの周波数範囲を容易に選択することができる。
本発明の好ましい実施形態によれば、帯域幅拡張モジュール5は、周波数領域帯域幅拡張信号BEFを周波数領域において時間的に及び/又はスペクトル的に整形するように構成された後整形モジュールを備えている。これらの特徴により、周波数領域帯域幅拡張信号BEFは、改良のための追加の時間的傾向及び/又はスペクトルエンベロープに対して適応することができる。
本発明の好ましい実施形態によれば、ビットストリーム受信機2は、ビットストリームBSからサイド情報信号SISを導出するように構成されており、帯域幅拡張モジュール5は、サイド情報信号SISに依存して周波数領域帯域幅拡張信号BEFを生成するように構成されている。言い換えれば、符号化器内で抽出されビットストリームBSを介して送信された追加のサイド情報は、周波数領域帯域幅拡張信号BEFのさらなる改良のために適用することができる。これらの特徴により、帯域幅拡張済み時間領域オーディオ信号BASの知覚品質をさらに増大させることができる。
本発明の好ましい実施形態によれば、雑音発生器6は、サイド情報信号SISに依存して雑音信号NOSを生成するように構成されている。この実施形態において、雑音発生器6は、帯域幅拡張済み時間領域オーディオ信号BASの知覚品質をさらに改善するために、スペクトル的に平坦な白色雑音の代わりに、スペクトル傾斜を有する雑音信号を得るように制御することができる。
本発明の好ましい実施形態によれば、予備整形モジュール7は、サイド情報信号SISに依存して雑音信号NOSを時間的に整形するように構成されている。予備整形内で、サイド情報は、例えば、予備整形に使用されるコア復号器信号DASのある目標帯域幅を選択するために使用することができる。
本発明の好ましい実施形態によれば、後整形モジュール13は、サイド情報信号SISに依存して周波数領域帯域幅拡張信号BEFを時間的に及び/又はスペクトル的に整形するように構成されている。後整形においてサイド情報を使用することにより、周波数領域帯域幅拡張信号BEFの粗い時間周波数エンベロープが元のエンベロープTEDに従うことが保証され得る。
図3は、本発明によるオーディオ復号器デバイスの第3の実施形態を概略図で示す。
本発明の好ましい実施形態によれば、帯域幅拡張モジュール5は、時間領域におけるさらなる雑音信号NOSFを生成するように構成されたさらなる雑音発生器14と、さらなる整形済み雑音信号SNSFを生成するために復号オーディオ信号DASの時間エンベロープTEDに依存してさらなる雑音信号NOSFを時間的に整形するように構成されたさらなる予備整形モジュール15と、さらなる整形済み雑音信号SNSFをさらなる周波数領域雑音信号FNSFに変換するように構成されたさらなる時間−周波数変換器16と、を備え、周波数領域帯域幅拡張信号BEFは、さらなる周波数領域雑音信号FNSFに依存する。2つの周波数領域雑音信号FNS、FNSFを使用して周波数領域帯域幅拡張信号BEFを生成することにより、帯域幅拡張済み時間領域オーディオ信号BASの知覚品質を増大させることができる。
本発明の好ましい実施形態によれば、帯域幅拡張モジュール5は、さらなる雑音信号NOSFの時間的整形が過度強調的に行われるように構成されている。これは、時間エンベロープに基づいて予備整形利得を導出する前に、時間エンベロープを振幅に関して分散させることによって実現することができる。この過度強調は実際の元のエンベロープを表さないが、例えば母音のようないくつかの信号部分の明瞭性は、非常に低いビットレートについて改善する。
本発明の好ましい実施形態によれば、帯域幅拡張モジュール5は、さらなる雑音信号NOSFの時間的整形が、バンドパスフィルタのバンクによってさらなる雑音信号NOSFをいくつかのさらなる部分帯域雑音信号に分割し、さらなる部分帯域雑音信号の各々に対して特定の時間的整形を実施することによって、部分帯域的に行われるように構成されている。
さらなる雑音信号を均一に予備整形する代わりに、整形は、バンドパスフィルタのバンクによってさらなる雑音信号をいくつかの部分帯域に分割し、すべての部分帯域信号に対して特定の整形を実施することによって、より精密に行うことができる。
本発明の好ましい実施形態によれば、帯域幅拡張モジュール5は、時間領域におけるトーン信号TOSを生成するように構成されているトーン発生器17と、整形済みトーン信号STSを生成するために復号オーディオ信号DASの時間エンベロープTEDに依存してトーン信号TOSを時間的に整形するように構成されているトーン予備整形モジュール18と、整形済みトーン信号STSを周波数領域トーン信号FTSに変換するように構成されている時間−周波数変換器19と、を備え、周波数領域帯域幅拡張信号BEFは、周波数領域トーン信号FTSに依存する。合成雑音信号NOS、NOSFの処理に加えて、時間領域における合成トーン成分を生成することも可能であり、合成トーン成分は、時間的に整形され、その後周波数表現FTSに変換される。この場合、時間領域における整形は、例えば、トーンのADSR(立ち上がり、減衰、保持、余韻)相を精密にモデル化するのに有益であり、これは、一般的な周波数領域表現では可能ではない。周波数領域トーン信号FTSを追加的に使用することにより、帯域幅拡張済み時間領域信号BASの品質をさらに増大させることができる。
周波数領域雑音信号FNS、さらなる周波数領域信号FNSF及び/又は周波数領域トーン信号は、コンバイナ20によって組み合わされてもよい。
図4は、本発明によるオーディオ復号器デバイスの第4の実施形態を概略図において示す。
本発明の好ましい実施形態によれば、コア復号器モジュール5は、時間領域コア復号器21及び周波数領域コア復号器22を備え、時間領域コア復号器21又は周波数領域コア復号器22のいずれかは、符号化オーディオ信号EASから復号オーディオ信号DASを導出するために選択することができる。これらの特徴は、音声音響統合符号化(MPEG−D USAC)環境において本発明を使用することを可能にする。
本発明の好ましい実施形態によれば、制御パラメータ抽出器23は、コア復号器モジュール3によって使用される制御パラメータCPを復号オーディオ信号DASから抽出するように構成されており、帯域幅拡張モジュール5は、制御パラメータCPに依存して周波数領域帯域幅拡張信号BEFを生成するように構成されている。周波数領域帯域幅拡張信号BEFは、コアコーダエンベロープに基づいて無条件に生成されるか、又は、コアコーダ信号から導出されたパラメータによって制御されてもよいが、符号化器から抽出及び送信されたパラメータによって部分的に誘導されて生成することもできる。
本発明の好ましい実施形態によれば、帯域幅拡張モジュール5は、復号オーディオ信号DASの時間エンベロープTEDに依存して予備整形モジュール7に関する整形利得SGを確立するように構成された整形利得計算器24を備えている。予備整形モジュール7は、予備整形モジュール7に関する整形利得SGに依存して雑音信号NOSを時間的に整形するように構成されている。これらの特徴により、本発明の実施が容易になる。
本発明の好ましい実施形態によれば、予備整形モジュール7に関する整形利得SGを確立するための整形利得計算器24は、制御パラメータCPに依存して予備整形モジュール7に関する整形利得SGを確立するように構成されている。
本発明の好ましい実施形態によれば、帯域幅拡張モジュール5は、復号オーディオ信号DASの時間エンベロープTEDに依存してさらなる予備整形モジュール15に関する整形利得を確立するように構成された整形利得計算器を備えている。さらなる予備整形モジュール14は、さらなる予備整形モジュール14に関する整形利得に依存してさらなる雑音信号NOSFを時間的に整形するように構成されている。
本発明の好ましい実施形態によれば、さらなる予備整形モジュール15に関する整形利得を確立するための整形利得計算器は、制御パラメータCPに依存してさらなる予備整形モジュール15に関する整形利得を確立するように構成されている。
本発明の好ましい実施形態によれば、帯域幅拡張モジュール5は、復号オーディオ信号DASの時間エンベロープTEDに依存してトーン予備整形モジュール18に関する整形利得を確立するように構成された整形利得計算器を備えている。トーン予備整形モジュール18は、トーン予備整形モジュール18に関する整形利得に依存してトーン信号TOSを時間的に整形するように構成されている。
本発明の好ましい実施形態によれば、トーン予備整形モジュール18に関する整形利得を確立するための整形利得計算器は、制御パラメータCPに依存してさらなる予備整形モジュール18に関する整形利得を確立するように構成されている。
図4は、切り替え型コード化システムの増強として、ステップごとに新規の帯域幅拡張の好ましい実施形態を示す。例示的なシステムは時間領域コア復号器21及び周波数領域コア復号器22を備え、時間領域コア復号器21及び周波数領域コア復号器22は、それぞれ12.8kHzの内部サンプリングレートと20msのフレーミングで動作する。この設定により、結果として、1フレームあたり256個の復号器出力サンプル及び6.4kHzの出力帯域幅が得られる。帯域幅拡張を適用することによって、システムの有効出力帯域幅は、32.0kHzのサンプリングレートにおいて、1つの雑音信号で14.4kHzまで拡張されると想定される。このため、以下のステップは、フレームごとに実行されてもよい。
雑音発生のステップにおいて、8.0kHz有効帯域幅の雑音フレーム(14.4kHz〜6.4kHz)は、16.0kHzのサンプリングにおいて20msの白色雑音を生成することによって得られてもよく、それによって320個の雑音サンプルがもたらされる。
制御パラメータ抽出のステップにおいて、コア復号器からのパラメータ、例えば、基本周波数及び音声コーダの長期予測器(LTP)利得が再使用されてもよい。また、コア復号器出力信号からのパラメータ、例えば、スペクトル中心及びゼロ交差率が抽出されてもよい。その上、予備整形の強度に対する判断は、例えば、高い基本周波数及び高い長期予測器利得(ピッチの高い母音)に関しては強い整形、並びに、高いスペクトル中心及びゼロ交差率(歯擦音)に関しては弱い整形又は整形なしというように、制御パラメータに基づいてもよい。
時間エンベロープ生成のステップにおいて、コア復号器出力信号DASからDC部分と非常に低い周波数を除去するためにハイパスフィルタが使用されてもよいし、時間サンプルがエネルギーに変換されてもよいし、そのエネルギーから線形予測コード化(LPC)係数が計算されてもよい。
整形利得を計算するステップにおいて、線形予測コード化係数は、平滑化された時間エンベロープを表す320サンプル長の周波数応答に変換されてもよく、平滑な時間エンベロープのサンプルは、目標整形強度を考慮した利得値に変換されてもよい。
時間的予備整形のステップにおいて、予備整形利得値は、雑音サンプルに適用されてもよい。
時間−周波数変換のステップにおいて、コア復号器出力信号DASは、400Hz帯域幅及び1.25msホップサイズのフィルタを組み込んだ分析直交ミラーフィルタバンクによって処理されてもよく、それによって20個の直交ミラーフィルタ部分帯域と16個の時間スロットの時間−周波数行列が得られる。また、雑音フレームは、復号器出力信号のものと同じ設定を組み込んださらなる直交ミラーフィルタバンクによって処理されてもよく、それによって16個の直交ミラーフィルタ部分帯域と16個の時間スロットの時間−周波数行列が得られる。
転置(帯域幅選択)ステップにおいて、雑音フレームは、目標周波数範囲にシフトされ復号器信号行列上に積み重ねられて、36個の直交ミラーフィルタ部分帯域と16個の時間スロットの出力T/F行列にしてもよい。
時間的及びスペクトル的後整形のステップにおいて、重要な信号部分(例えば、過渡)に関する正確な時間的傾向は、送信されたサイド情報により転置した直交ミラーフィルタエンベロープを時間的に後整形することによって、保証されてもよい。その上、元のスペクトル傾斜及び全体的なエネルギーは、送信されたサイド情報により転置した直交ミラーフィルタエンベロープをスペクトル的に後整形することによって、近似させてもよい。
合成するステップにおいて、36個の部分帯域の出力時間−周波数行列は、40部分帯域合成直交ミラーフィルタバンクによって処理されてもよく、それにより32.0kHzサンプリングレートと14.4kHzの有効帯域幅の超広帯域時間領域出力信号BASが得られる。
記載されている実施形態の復号器及び方法に関して、以下のことを言及しておく。
いくつかの態様は装置の側面で記載されているが、これらの態様は対応する方法の記載も表すことが明らかであり、ブロック又はデバイスは、方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップの側面で記載されている態様は、対応する装置の対応するブロック又は項目又は特徴の記載も表す。
特定の実施要件に応じて、本発明の実施形態は、ハードウェア又はソフトウェアにおいて実施することができる。この実施はデジタル記憶媒体を使用して実施することができ、デジタル記憶媒体は、例えば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリであり、デジタル記憶媒体には、それぞれの方法が実施されるようにプログラム可能コンピュータシステムと協働する(又は協働することが可能な)電子可読制御信号を記憶されている。
本発明によるいくつかの実施形態は、本明細書に記載されている方法の1つが実施されるようにプログラム可能コンピュータシステムと協働することが可能な電子可読制御信号を有するデータキャリアを含む。
一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータで作動すると、方法の1つを実施するように動作可能である。プログラムコードは、例えば、機械が読取り可能なキャリアに記憶されていてもよい。
他の実施形態は、本明細書に記載されている方法の1つを実施するためのコンピュータプログラムを含み、コンピュータプログラムは、機械が読取り可能なキャリア又は非一時的な記憶媒体に記憶されている。
言い換えれば、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータで実行されたときに本明細書に記載されている方法の1つを実施するためのプログラムコードを有するコンピュータプログラムである。
それゆえ、本発明の方法のさらなる実施形態は、本明細書に記載されている方法の1つを実施するためのコンピュータプログラムが記録されているデータキャリア(又はデジタル記憶媒体、又はコンピュータが読取り可能な媒体)である。
それゆえ、本発明の方法のさらなる実施形態は、本明細書に記載されている方法の1つを実施するためのコンピュータプログラムを表すデータストリーム又は信号の系列である。データストリーム又は信号の系列は、例えば、データ通信接続を介して、例えば、インターネットを介して送信されるように構成されていてもよい。
さらなる実施形態は、本明細書に記載されている方法の1つを実施するように構成され又は調整された処理手段、例えばコンピュータ、又はプログラム可能論理デバイスを含む。
さらなる実施形態は、本明細書に記載されている方法の1つを実施するためのコンピュータプログラムがインストールされているコンピュータを含む。
いくつかの実施形態において、プログラム可能な論理デバイス(例えば、フィールドプログラマブルゲートアレイ)が、本明細書に記載されている方法の機能のいくつか又はすべてを実施するために使用されてもよい。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書に記載されている方法の1つを実施するために、マイクロプロセッサと協働してもよい。一般的に、方法は、任意のハードウェア装置によって実施されることが有効である。
本発明はいくつかの実施形態に関して記載されているが、本発明の範囲内にある変更形態、置換形態、及び均等物が存在する。本発明の方法及び構成を実施する多くの代替的な様式が存在することも留意されたい。したがって、添付の特許請求の範囲は、本発明の真の精神及び範囲内にあるすべてのそのような変更形態、置換形態及び均等物を含むものとして解釈されることが意図されている。
1 オーディオ復号器デバイス
2 ビットストリーム受信機
3 コア復号器モジュール
4 時間エンベロープ生成器
5 帯域幅拡張モジュール
6 雑音発生器
7 予備整形モジュール
8 時間−周波数変換器
9 時間−周波数変換器
10 コンバイナ
11 周波数−時間変換器
12 周波数範囲選択器
13 後整形モジュール
14 さらなる雑音発生器
15 さらなる予備整形モジュール
16 さらなる時間−周波数変換器
17 トーン発生器
18 トーン予備整形モジュール
19 時間−周波数変換器
20 コンバイナ
21 時間領域コア復号器
22 周波数領域コア復号器
23 制御パラメータ抽出器
24 整形利得計算器
BS ビットストリーム
EAS 符号化オーディオ信号
DAS 復号オーディオ信号
TED 時間エンベロープ
BEF 周波数領域帯域幅拡張信号
NOS 雑音信号
SNS 整形済み雑音信号
FNS 周波数領域雑音信号
FDS 周波数領域復号オーディオ信号
BFS 帯域幅拡張済み周波数領域オーディオ信号
BAS 帯域幅拡張済み時間領域オーディオ信号
FSR 周波数範囲選択済み周波数領域雑音信号
SIS サイド情報信号
NOSF さらなる雑音信号
SNSF さらなる整形済み雑音信号
FNSF さらなる周波数領域雑音信号
TOS トーン信号
STS 整形済みトーン信号
FTS 周波数領域トーン信号
SG 整形利得
CP 制御パラメータ

Claims (24)

  1. ビットストリーム(BS)を復号するためのオーディオ復号器デバイス(1)であって、
    前記ビットストリーム(BS)を受信し、前記ビットストリーム(BS)から符号化オーディオ信号(EAS)を導出するように構成されているビットストリーム受信機(2)と、
    前記符号化オーディオ信号(EAS)から時間領域における復号オーディオ信号(DAS)を導出するように構成されているコア復号器モジュール(3)と、
    前記復号オーディオ信号(DAS)の時間エンベロープ(TED)を決定するように構成されている時間エンベロープ生成器(4)と、
    周波数領域帯域幅拡張信号(BEF)を生成するように構成された帯域幅拡張モジュール(5)であって、時間領域における雑音信号(NOS)を生成するように構成された雑音発生器(6)、整形済み雑音信号(SNS)を生成するために前記復号オーディオ信号(DAS)の前記時間エンベロープ(TED)に依存して前記雑音信号(NOS)を時間的に整形するように構成された予備整形モジュール(7)、及び前記整形済み雑音信号(SNS)を周波数領域雑音信号(FNS)に変換するように構成された時間−周波数変換器(8)を有し、前記周波数領域帯域幅拡張信号(BEF)は前記周波数領域雑音信号(FNS)に依存する帯域幅拡張モジュール(5)と、
    前記復号オーディオ信号(DAS)を周波数領域復号オーディオ信号(FDS)に変換するように構成された時間−周波数変換器(9)と、
    帯域幅拡張済み周波数領域オーディオ信号(BFS)を生成するために、前記周波数領域復号オーディオ信号(FDS)と前記周波数領域帯域幅拡張信号(BEF)とを一つにまとめるように構成されたコンバイナ(10)と、
    前記帯域幅拡張済み周波数領域オーディオ信号(BFS)を帯域幅拡張済み時間領域オーディオ信号(BAS)に変換するように構成された周波数−時間変換器(11)と、を備えているオーディオ復号器デバイス(1)。
  2. 前記周波数領域帯域幅拡張信号(BEF)をスペクトル帯域複製無しに生成する請求項1に記載のオーディオ復号器デバイス。
  3. 前記帯域幅拡張モジュール(5)は、前記雑音信号(NOS)の前記時間的整形が過度強調的に行われるように構成されている請求項1及び2のいずれか一項に記載のオーディオ復号器デバイス。
  4. 前記帯域幅拡張モジュール(5)は、バンドパスフィルタのバンクによって前記雑音信号(NOS)を別々の部分帯域雑音信号に分割し、前記部分帯域雑音信号の各々に対して特定の時間的整形を実行することによって、前記雑音信号(NOS)の前記時間的整形が部分帯域的に行われるように構成されている請求項1から3のいずれか一項に記載のオーディオ復号器デバイス。
  5. 前記帯域幅拡張モジュール(5)は、前記周波数領域帯域幅拡張信号(BEF)の周波数範囲を設定するように構成された周波数範囲選択器(12)を備えている請求項1から4のいずれか一項に記載のオーディオ復号器デバイス。
  6. 前記帯域幅拡張モジュール(5)は、前記周波数領域帯域幅拡張信号(BEF)を周波数領域において時間的に及び/又はスペクトル的に整形するように構成された後整形モジュールを備えている請求項1から5のいずれか一項に記載のオーディオ復号器デバイス。
  7. 前記ビットストリーム受信機(2)は、前記ビットストリーム(BS)からサイド情報信号(SIS)を導出するように構成されており、前記帯域幅拡張モジュール(5)は、前記サイド情報信号(SIS)に依存して前記周波数領域帯域幅拡張信号(BEF)を生成するように構成されている請求項1から6のいずれか一項に記載のオーディオ復号器デバイス。
  8. 前記雑音発生器(6)は、前記サイド情報信号(SIS)に依存して前記雑音信号(NOS)を生成するように構成されている請求項7に記載のオーディオ復号器デバイス。
  9. 前記予備整形モジュール(7)は、前記サイド情報信号(SIS)に依存して前記雑音信号(NOS)を時間的に整形するように構成されている請求項7又は8のいずれか一項に記載のオーディオ復号器デバイス。
  10. 前記後整形モジュール(13)は、前記サイド情報信号(SIS)に依存して前記周波数領域帯域幅拡張信号(BEF)を時間的に及び/又はスペクトル的に整形するように構成されている請求項7から9のいずれか一項に記載のオーディオ復号器デバイス。
  11. 前記帯域幅拡張モジュール(5)は、時間領域におけるさらなる雑音信号(NOSF)を生成するように構成されたさらなる雑音発生器(14)と、さらなる整形済み雑音信号(SNSF)を生成するために前記復号オーディオ信号(DAS)の前記時間エンベロープ(TED)に依存して前記さらなる雑音信号(NOSF)を時間的に整形するように構成されたさらなる予備整形モジュール(15)と、前記さらなる整形済み雑音信号(SNSF)をさらなる周波数領域雑音信号(FNSF)に変換するように構成されたさらなる時間−周波数変換器(16)と、を備え、前記周波数領域帯域幅拡張信号(BEF)は前記さらなる周波数領域雑音信号(FNSF)に依存する請求項1から10のいずれか一項に記載のオーディオ復号器デバイス。
  12. 前記帯域幅拡張モジュール(5)は、前記さらなる雑音信号(NOSF)の前記時間的整形が過度強調的に行われるように構成されている請求項11に記載のオーディオ復号器デバイス。
  13. 前記帯域幅拡張モジュール(5)は、バンドパスフィルタのバンクによって前記さらなる雑音信号(NOSF)を別々のさらなる部分帯域雑音信号に分割し、前記さらなる部分帯域雑音信号の各々に対して特定の時間的整形を実行することによって、前記さらなる雑音信号(NOSF)の前記時間的整形が部分帯域的に行われるように構成されている請求項11又は12に記載のオーディオ復号器デバイス。
  14. 前記帯域幅拡張モジュール(5)は、時間領域におけるトーン信号(TOS)を生成するように構成されたトーン発生器(17)と、整形済みトーン信号(STS)を生成するために前記復号オーディオ信号(DAS)の前記時間エンベロープ(TED)に依存して前記トーン信号(TOS)を時間的に整形するように構成されたトーン予備整形モジュール(18)と、前記整形済みトーン信号(STS)を周波数領域トーン信号(FTS)に変換するように構成された時間−周波数変換器(19)と、を備え、前記周波数領域帯域幅拡張信号(BEF)は前記周波数領域トーン信号(FTS)に依存する請求項1から13のいずれか一項に記載のオーディオ復号器デバイス。
  15. 前記コア復号器モジュール(5)は、時間領域コア復号器(21)及び周波数領域コア復号器(22)を備え、前記時間領域コア復号器(21)又は前記周波数領域コア復号器(22)のいずれかが、前記符号化オーディオ信号(EAS)から前記復号オーディオ信号(DAS)を導出するために使用される請求項1から14のいずれか一項に記載のオーディオ復号器デバイス。
  16. 制御パラメータ抽出器(23)は、前記コア復号器モジュール(3)によって使用される制御パラメータ(CP)を前記復号オーディオ信号(DAS)から抽出するように構成されており、前記帯域幅拡張モジュール(5)は、前記制御パラメータ(CP)に依存して前記周波数領域帯域幅拡張信号(BEF)を生成するように構成されている請求項15に記載のオーディオ復号器デバイス。
  17. 前記帯域幅拡張モジュール(5)は、前記復号オーディオ信号(DAS)の前記時間エンベロープ(TED)に依存して前記予備整形モジュール(7)に関する整形利得(SG)を確立するように構成された整形利得計算器(24)を備え、前記予備整形モジュール(7)は、前記予備整形モジュール(7)に関する前記整形利得(SG)に依存して前記雑音信号(NOS)を時間的に整形するように構成されている請求項1から16のいずれか一項に記載のオーディオ復号器デバイス。
  18. 前記予備整形モジュール(7)に関する整形利得(SG)を確立するための前記整形利得計算器(24)は、前記制御パラメータ(CP)に依存して前記予備整形モジュール(7)に関する整形利得(SG)を確立するように構成されている請求項16及び17に記載のオーディオ復号器デバイス。
  19. 前記帯域幅拡張モジュール(5)は、前記復号オーディオ信号(DAS)の前記時間エンベロープ(TED)に依存して前記さらなる予備整形モジュール(15)に関する整形利得を確立するように構成されている整形利得計算器を備え、前記さらなる予備整形モジュール(14)は、前記さらなる予備整形モジュール(14)に関する前記整形利得に依存して前記さらなる雑音信号(NOSF)を時間的に整形するように構成されている請求項11から18のいずれか一項に記載のオーディオ復号器デバイス。
  20. 前記さらなる予備整形モジュール(15)に関する整形利得を確立するための前記整形利得計算器は、前記制御パラメータ(CP)に依存して前記さらなる予備整形モジュール(15)に関する整形利得を確立するように構成されている請求項16及び19に記載のオーディオ復号器デバイス。
  21. 前記帯域幅拡張モジュール(5)は、前記復号オーディオ信号(DAS)の前記時間エンベロープ(TED)に依存して前記トーン予備整形モジュール(18)に関する整形利得を確立するように構成された整形利得計算器を備え、前記トーン予備整形モジュール(18)は、前記トーン予備整形モジュール(18)に関する前記整形利得に依存して前記トーン信号(TOS)を時間的に整形するように構成されている請求項14から20のいずれか一項に記載のオーディオ復号器デバイス。
  22. 前記トーン予備整形モジュール(18)に関する整形利得を確立するための前記整形利得計算器は、前記制御パラメータ(CP)に依存して前記さらなる予備整形モジュール(18)に関する整形利得を確立するように構成されている請求項16及び21に記載のオーディオ復号器デバイス。
  23. ビットストリーム(BS)を復号するための方法であって、
    ビットストリーム受信機(2)を使用して、前記ビットストリーム(BS)を受信し、前記ビットストリーム(BS)から符号化オーディオ信号(EAS)を導出するステップと、
    コア復号器モジュール(3)を使用して、前記符号化オーディオ信号(EAS)から時間領域における復号オーディオ信号(DAS)を導出するステップと、
    時間エンベロープ生成器(4)を使用して、前記復号オーディオ信号(DAS)の時間エンベロープ(TED)を決定するステップと、
    帯域幅拡張モジュール(5)であって、
    前記帯域幅拡張モジュール(5)の雑音発生器(6)を使用して時間領域における雑音信号(NOS)を生成するステップ、
    前記帯域幅拡張モジュール(5)の予備整形モジュール(7)を使用して、整形済み雑音信号(SNS)を生成するために前記復号オーディオ信号(DAS)の前記時間エンベロープ(TED)に依存して前記雑音信号(NOS)を時間的に整形するステップ、及び
    前記帯域幅拡張モジュール(5)の時間−周波数変換器(8)を使用して、前記整形済み雑音信号(SNS)を周波数領域雑音信号(FNS)に変換するステップであって、前記周波数領域帯域幅拡張信号(BEF)が前記周波数領域雑音信号(FNS)に依存するステップ、を実行する前記帯域幅拡張モジュール(5)を使用し、周波数領域帯域幅拡張信号(BEF)を生成するステップと、
    さらなる時間−周波数変換器(9)を使用して、前記復号オーディオ信号(DAS)を周波数領域復号オーディオ信号(FDS)に変換するステップと、
    コンバイナ(10)を使用して、帯域幅拡張済み周波数領域オーディオ信号(BFS)を生成するために、前記周波数領域復号オーディオ信号(FDS)と前記周波数領域帯域幅拡張信号(BEF)とを組み合わせるステップと、
    周波数−時間変換器(11)を使用して、前記帯域幅拡張済み周波数領域オーディオ信号(BFS)を帯域幅拡張済み時間領域オーディオ信号(BAS)に変換するステップと、を含む方法。
  24. プロセッサで作動すると請求項23に記載の方法を実行するコンピュータプログラム。
JP2016527226A 2013-10-31 2014-10-30 周波数領域における時間的予備整形雑音の挿入によるオーディオ帯域幅拡張 Active JP6396459B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13191127.3 2013-10-31
EP13191127 2013-10-31
PCT/EP2014/073375 WO2015063227A1 (en) 2013-10-31 2014-10-30 Audio bandwidth extension by insertion of temporal pre-shaped noise in frequency domain

Publications (2)

Publication Number Publication Date
JP2016541012A true JP2016541012A (ja) 2016-12-28
JP6396459B2 JP6396459B2 (ja) 2018-09-26

Family

ID=51845400

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016527226A Active JP6396459B2 (ja) 2013-10-31 2014-10-30 周波数領域における時間的予備整形雑音の挿入によるオーディオ帯域幅拡張

Country Status (11)

Country Link
US (1) US9805731B2 (ja)
EP (1) EP3063761B1 (ja)
JP (1) JP6396459B2 (ja)
KR (1) KR101852749B1 (ja)
CN (1) CN105706166B (ja)
CA (1) CA2927990C (ja)
ES (1) ES2657337T3 (ja)
MX (1) MX355452B (ja)
RU (1) RU2666468C2 (ja)
TR (1) TR201802303T4 (ja)
WO (1) WO2015063227A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022516604A (ja) * 2018-12-21 2022-03-01 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ パルス処理を使用して周波数拡張オーディオ信号を生成するためのオーディオプロセッサおよび方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483882A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
CN110534128B (zh) * 2019-08-09 2021-11-12 普联技术有限公司 一种噪音处理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0936685A (ja) * 1994-10-06 1997-02-07 Shin Nakagawa 音響信号再生方法及び装置
JP2005509928A (ja) * 2001-11-23 2005-04-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号帯域幅拡張
JP2008096567A (ja) * 2006-10-10 2008-04-24 Matsushita Electric Ind Co Ltd オーディオ符号化装置およびオーディオ符号化方法ならびにプログラム
JP2010020356A (ja) * 2003-07-29 2010-01-28 Panasonic Corp オーディオ信号帯域拡張装置
JP2011034046A (ja) * 2009-04-03 2011-02-17 Ntt Docomo Inc 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、音声符号化プログラム及び音声復号プログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226616B1 (en) * 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
EP1829424B1 (en) * 2005-04-15 2009-01-21 Dolby Sweden AB Temporal envelope shaping of decorrelated signals
CN101140759B (zh) * 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及***
PT2571024E (pt) * 2007-08-27 2014-12-23 Ericsson Telefon Ab L M Frequência de transição adaptativa entre preenchimento de ruído e extensão da largura de banda
HUE047607T2 (hu) * 2007-08-27 2020-05-28 Ericsson Telefon Ab L M Eljárás és eszköz hangjel észlelési spektrális dekódolására, beleértve a spektrális lyukak kitöltését
KR101230479B1 (ko) * 2008-03-10 2013-02-06 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 장치 및 방법
CN101281748B (zh) * 2008-05-14 2011-06-15 武汉大学 用编码索引实现的空缺子带填充方法及编码索引生成方法
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
US8532983B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
EP2273493B1 (en) * 2009-06-29 2012-12-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Bandwidth extension encoding and decoding
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
SG178320A1 (en) * 2010-06-09 2012-03-29 Panasonic Corp Bandwidth extension method, bandwidth extension apparatus, program, integrated circuit and audio decoding apparatus
CA2827000C (en) * 2011-02-14 2016-04-05 Jeremie Lecomte Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
EP2707875A4 (en) * 2011-05-13 2015-03-25 Samsung Electronics Co Ltd NOISE REDUCTION AND AUDIO CODING

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0936685A (ja) * 1994-10-06 1997-02-07 Shin Nakagawa 音響信号再生方法及び装置
JP2005509928A (ja) * 2001-11-23 2005-04-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号帯域幅拡張
JP2010020356A (ja) * 2003-07-29 2010-01-28 Panasonic Corp オーディオ信号帯域拡張装置
JP2008096567A (ja) * 2006-10-10 2008-04-24 Matsushita Electric Ind Co Ltd オーディオ符号化装置およびオーディオ符号化方法ならびにプログラム
JP2011034046A (ja) * 2009-04-03 2011-02-17 Ntt Docomo Inc 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、音声符号化プログラム及び音声復号プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAORI R: "HI-BIN: AN ALTERNATIVE APPROACH TO WIDEBAND SPEECH CODING", PROCEEDINGS OF 2000 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, 以下備考, vol. 2, JPN5017000856, 5 June 2000 (2000-06-05), US, pages 1157 - 1160, ISSN: 0003625156 *
菊入 圭: "音声と音楽の高効率な圧縮を実現するMPEG標準音声音響統合符号化方式", NTT DOCOMOテクニカル・ジャーナル, vol. 19, no. 3, JPN6017031750, 1 October 2011 (2011-10-01), pages 18 - 23, ISSN: 0003625155 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022516604A (ja) * 2018-12-21 2022-03-01 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ パルス処理を使用して周波数拡張オーディオ信号を生成するためのオーディオプロセッサおよび方法
JP7314280B2 (ja) 2018-12-21 2023-07-25 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ パルス処理を使用して周波数拡張オーディオ信号を生成するためのオーディオプロセッサおよび方法
US11776554B2 (en) 2018-12-21 2023-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency enhanced audio signal using pulse processing

Also Published As

Publication number Publication date
EP3063761A1 (en) 2016-09-07
ES2657337T3 (es) 2018-03-02
JP6396459B2 (ja) 2018-09-26
CN105706166B (zh) 2020-07-14
KR101852749B1 (ko) 2018-06-07
KR20160075768A (ko) 2016-06-29
RU2666468C2 (ru) 2018-09-07
US20160240200A1 (en) 2016-08-18
US9805731B2 (en) 2017-10-31
CA2927990C (en) 2018-08-14
MX2016005167A (es) 2016-07-05
WO2015063227A1 (en) 2015-05-07
EP3063761B1 (en) 2017-11-22
MX355452B (es) 2018-04-18
RU2016121163A (ru) 2017-12-05
CN105706166A (zh) 2016-06-22
CA2927990A1 (en) 2015-05-07
TR201802303T4 (tr) 2018-03-21

Similar Documents

Publication Publication Date Title
JP6396459B2 (ja) 周波数領域における時間的予備整形雑音の挿入によるオーディオ帯域幅拡張
CA2978814C (en) Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
CN105793924B (zh) 使用错误隐藏提供经解码的音频信息的音频解码器及方法
AU2012217269B2 (en) Apparatus and method for processing a decoded audio signal in a spectral domain
CN106796800B (zh) 音频编码器、音频解码器、音频编码方法和音频解码方法
RU2483364C2 (ru) Схема аудиокодирования/декодирования с переключением байпас
CN107077858B (zh) 使用具有全带隙填充的频域处理器以及时域处理器的音频编码器和解码器
EP2491555B1 (en) Multi-mode audio codec
EP1756807B1 (en) Audio encoding
IL278164B (en) Audio encoder and decoder
KR20150110708A (ko) 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조
KR102619434B1 (ko) 펄스 프로세싱을 사용하여 주파수 향상 오디오 신호를 생성하기 위한 오디오 프로세서 및 방법
Vaillancourt et al. New post-processing techniques for low bit rate celp codecs
BR112016009563B1 (pt) Extensão de largura de banda de áudio através da inserção de ruído temporal pré- formado no domínio de frequência

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170829

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180829

R150 Certificate of patent or registration of utility model

Ref document number: 6396459

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250